历时 8 年 ， 三 次 重 构 ， 内 容 愈加 炉火纯青 。 Ae 
全 部 代码 更 新 至 全 新 的 Linux 4.0 版 本 。 A. ao 
全 面 讲解 ARM Linux 新 版 本 内 核 架 构 ， 如 设备 树 等 。 d 
不 仅仅 注重 知识 和 程序 的 讲解 ， 更 注重 程序 的 思想 、 演 变 、 架 构 和 算法 。 BRAT Linux 
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推荐 序 一 


扩 术 日 新 月 异 ， 产 业 斗 转 星 移 ， 滚 滚 红 侍 ， 消 逝 的 事物 太 多 ， 新 事物 的 诞生 也 更 迅 狐 。 众 多 新 生 事 物 
如 灿烂 烟 伦 ， 转 瞬 即 授 。 妆 我 们 仙 户 星空 时 ， 在 浩如烟海 的 专业 名 词 中 寻找 ， 攻 然 友 现 ，Linux 的 生命 力 
之 旺 侣 硕 强 ， 斗 志 之 昂扬 雄 半 ， 令 人 称奇 。 它 正 以 摧 村 拉 楚 之 势 迅 速 占领 包括 服务 占 、 云 计算 、 消 弓 电 
子 、 工 业 控 制 、 仪 如 仪 表 、 叶 航 娱乐 等 在 内 的 众多 应 用 领域 ， 并 过 步 占据 许多 WINCE、VxWorks 的 传统 
RAATH. 


Linux Zh, ALTAR. 1X5 Linux hE KAFR, TR EIAIC ACK A © Linux8£2-3 H Er 
RRE, KARERE GARE SR. AARRE, KE Linux e Bé Ue fE 2s — Hj [8] 
AWG AP WERK, TOSUOUSNLPERUJAEBU THES. FA Linux AAK HRE Linux ve {7 P^ i 9 Ac HU AX Ze de MV RUE 
好 者 构成 了 一 个 庞大 的 Linux 生 态 圈 。 而 本 书 ， 无 疑 给 这 个 庞大 的 生态 较 注 入 了 养料 。 


然而 ， 养 料 的 注入 应 该 是 持续 不 断 的 。 至 今 ，Linux 内 核 的 底层 BSP、 驱 动 框架 和 内 核实 现 发 生 了 许 
多 变更 ， 本 书 涵盖 了 这 些 新 的 变化 ， 这 将 给 予 开 发 者 更 多 新 的 帮助 。 内 核 的 代码 不 断 重 构 并 最 优化 ， 而 本 
书 也 无 疑 是 一 次 重大 的 重 构 。 


EMDE, HERI AN IE 


HLY) 


推 存 序 二 
FEMME 了 《Understandineg the Linux Kernel》 和 《Linux Kernel Development) XAKER, FARE 
询问 如 何 学 习 Linux 内 核 时 ， 我 都 不 敢 贸 然 给 出 建议 。 如 此 庞大 的 内 核 ， 各 个 子 系 统 之 间 的 天 系 错 综 复 
ZR, TRAGAS Wt SIAR, SUIV MSLAGE? 你 的 出 及 点 是 哪里 ?你 想 去 的 彼 必 又 是 哪里 ?相应 的 学 习 方 
法 者 不同。 


一 且 踏 入 Linux 内 核 领 域 ， 要 精通 Linux 内 核 的 精 敌 ， 儿 乎 没有 捷径 可 走 。 尽 管 通 往 山 顶 的 路 有 无 数 
条 ， 但 每 条 路 上 都 布 满 荆 杯 ， 或 许 时 间 和 效力 才 是 斩 草 披 环 的 利器 


从 最 家 到 现在 ，Linux 内 核 的 版 本 更 新 达 上 于 个 ， 代 三 规模 不 断 增 长 ， 平 均 每 个 厂 本 的 新 增 代 码 有 4 万 
右 。 在 源 代 码 的 10 个 主要 子 目 录 Carch. init. include. kernel. mm. IPC. fs. lib. net. drivers) 
F, OX SREP CS ee SAE RBA. 


从 软件 工程 角度 来 看 内 核 代码 的 变化 规律 ，Linux 的 体系 结构 相对 稳定 ， 子 系统 数 变 化 不 大 ， 平 均 每 
个 模块 的 复 森 度 呈 下 降 趋 势 ， 但 系统 整体 规模 和 复杂 性 分 别 呈 超 线性 和 接近 线性 增长 趋势 。drivers 和 arch 
等 使 其 的 快速 变化 是 引起 系统 复杂 性 增加 的 主因 。 那 么 ， 在 代码 量 最 多 的 张 动 程 序 中 ， 有 什么 规律 可 御 ? 
最 根本 的 义 古 什么 ? 


本 书 更 多 的 是 天 于 Linux 内 核 代 公 背后 机 理 的 讲解 ， 呈 现 给 读者 的 是 一 种 思考 方法 ， 让 读者 能 够 在 思 
竹中 人 举一反三。 尽 官 驱动 程序 只 和 是 内 核 的 一 个 子 系统 ， 但 Linux 内 核 是 一 种 整体 结构 ， 替 一 肥 而 动 全 局 ， 
对 Linux 内 核 其 他 相关 知识 的 向 握 是 开 友 驱动 的 基础 。 本 书 的 内 容 包 括 中 断 、 定 时 如 、 进 程 生 命 周 期 、 
uevent、 并 发 、 编 译 乱 序 、 执 行 乱 序 、 等 得 队列 、L/O 模 型 、 内 存 管 理 等 ， 实 例 代码 也 被 大 幅 重 构 。 


明代 著名 的 思想 家 王 明 阳 有 人 句 名 言 “ 知 而 人 不行， 是 为 个 知 ; 行 而 个 知 ， 可 以 致知 ?>。 因 此 在 研读 本 书 
时 ， 你 一 定 要 莱 里 实践 ， 在 实践 之 后 要 提升 思考 ， 如 此 ， 你 才 可 以 越过 代 人 码 本 里 而 看 到 内 核 的 深层 机 理 。 


BKR A 


西安 邮电 大 学 


7a 
HI ri 


Linux M c fe ax a EY A. Linus Torvalds， 世 界 上 最 伟大 的 程序 员 之 一 ，Linux 内 核 的 创始 人 ，Git 的 
缔造 者 ， 现 在 仍然 在 没 日 没 夜 地 合并 补丁 、 升 级 内 核 。 做 技术 的 人 ， 从 来 没有 终 南 捷径 ， 拼 得 束 是 坐 冷 板 


HRI o 


Jot xi — 1 E D] SE A Fr ITAR, FERRER STR MTE isd. FR ADE TERI 
WME RF PD ROFL AS RIMAE Linux Lhe), 440105) f8] DJ ES PX" Linux At, Ae FEN TEE 
验 ， 而 他 们 的 “精通 ” 却 只 是 把 某 个 寄存 器 从 0 改 成 1， 从 1 改 成 0 的 不 断 重 复 ; 我 也 见 过 许多 Linux 工 程 师 ， 
(WAAL, WA E H OWA asa ee, BIR EE RRS, JPN DT MATT AE OAR 
Re 


ix BEE AE JER AB SF EAP, REST foe” EFR, MOR IAN EE ETRE AP N o 


对 于 优秀 的 程序 员 ， 其 最 优秀 的 品质 是 能 够 心平 气 和 地 学 习 与 思考 问题 ， 透 析 代 但 到 后 的 架构 、 原 理 
和 设计 思想 。 没 有 思想 的 代 公 是 垃圾 代码 ， 没 有 思想 的 程序 员 ， 只 十 在 完成 低 水 平 乍 复 建 设 的 体力 活 。 人 很 
多 程序 员 从 不 过 问 目 己 写 的 代 公 最 后 在 机 各 里 面 古 泽 么 跑 有 的， 很 多 事情 惕 名 其 妙 地 友 生 了， 很 多 bug 况 名 
其 妙 地 闪失 了 ..…….….. 他 们 永远 部 在 得 过 且 过 。 


4 


FAK, ATRL T ASR OA, A ie 2s eae Ee AF Linux dt AEA DE, ADAN 
定 根 葵 。 本 书 呈 现 给 读者 的 更 多 的 是 一 种 思考 方法 ， 而 不 是 知识 点 的 简单 罗列 。 


本 书 际 对 基础 理论 部 分 进行 了 评 细 的 讲解 外 ， 还 加 强 了 对 驱动 编程 所 涉 友 的 Linux 内 核 最 发 层 机 理 有 的 
讲解 ， 内 容 包 括 中 断 、 定 时 器 、 进 程 生命 周期 、uevent、 并 发 、 编 译 乱 序 、 执 行 乱 序 、 等 待 队 列 、LIO 模 
AL AAP RES. KERRAT EE, ce IE UE Ree n Se Linux eB A, TET R RAAR 
基 ， 才 能 六 为 有 余 。 


了 张 劲 编程 育 后 的 内 核 原 理 ， 并 试图 从 Linux 内 核 的 上 百 个 张 劲 子 系统 中 寻找 出 内 部 规律 ， 以 培养 谈 者 举 
一 反 三 的 能 


Linux 内 核 有 上 白 个 驱动 子 系统 ， 这 一 后 从 内 核 的 drivers 于 目录 中 束 可 以 看 出 来 : 


c | mmc pla 
pi connec tor gpio isdn modules.builtin pnp scsi uwb 
amba coresight gpu Kconfig modules.order power sfi vfio 
android cpufreq hid leds mtd powercap sh vhost 

hsi vi 


d 
bluetooth regulat 
built-in.o edac iio menmor y parport remoteproc tc 
bus eis set | thermal zorro 
cdrom extcon input message pcmcia 4 


char irewire | m 
clk firmware ipack misc pinctrl 


好 吧 ， 候 了 于 才 会 一 个 目录 一 个 目录 地 去 看 ， 一 个 目录 一 个 目录 地 从 头 学 起 。 我 们 劳 必 要 寻找 各 种 驱动 
子 系 统 的 共性 ， 近 过 规律 。 在 本 书 中 ， 我 们 将 更 多 地 看 到 各 驱动 于 系统 的 类 比 ， 以 及 驱动 子 系 统 的 层 钦 化 


设计 。 


技术 工作 从 来 都 不 能 一 元 永 逸 。 世 界 变 化 得 太 快 ， 当 前 技术 平 新 的 速度 数 倍 于 我 们 父 阐 、 祖 奉 、 祖 祖 
替 经 历 过 的 任何 时 代 。 证 明 你 是 “ 真 球迷 ”还 是 “ 伪 球 迷 ” 的 时 候 到 了 ， 这 个 时 代 是 伪 程 序 员 的 地 狱 ， 也 是 真 
TEE ja BIA. 


从 浩如烟海 的 知识 体系 、 不 断 更 新 的 软件 版 本 中 终生 和 学习， 不 断 攻 殉 一 个 个 挑战 ， 获 取 新 养分 ， 寻 找 
新 灵感 ， 这 实在 是 黑暗 的 码 农 生 涯 中 不 断 闪现 的 玲 下 光 亡 。 


Linux Bj AFAR AS AS ih a, HAS f Linux 3.0. Linux 3.1. Linux 3.2、...、Linux 3.19、Linux 4.0、 
Linux 4.1, SERERE, AEH Linus HATS e 


XX Jc SEU EAB HSA, SEGEDLinuxdp 728 FE WY AU AA ARAL TN A ie. DIG, AN 
书 有 大 量 关 于 设备 树 、ARM LinuxfzfH. Linux EW EE, GPIO, INS. ERTAS pinmux. DMA A Z. 
我 们 的 操作 平台 也 转移 到 了 QEMU 模 拟 的 4 核 Cortex-A9 电 路 板 上 ， 书 中 的 实例 基本 都 转移 到 了 市 面 流 行 的 
新 必 帮 上 。 


最 近 两 三 年 ， 老 征 听 许多 程序 员 抱 扰 ， 市 面 上 缺乏 讲解 新 内 核 的 资料 、 缺 乏 从 头 到 尾 讲解 售 备 树 的 次 
料 ， 但 是 我 四 说 ， 这 实在 不 是 什么 难 点 。 难 点 仍然 是 本 书 基 于 第 一 个 出 友 点 要 解决 的 问题 ， 如 朱 有 好 的 基 
偶 ， 以 优秀 程序 员 极 强 的 学 习 能 力 ， 应 访 很 快 融 可 以 午 握 这 些 新 知识 。 机 制 没 有 变 ， 变 化 的 只 十 脓 略 。 


因此 学 习 能 力也 是 优秀 程序 员 的 叉 一 个 重要 品质 。 没 有 人 生 下 来 耽 是 天 才 ， 民 好 的 学 习 能 力也 征 通 过 
后 天 的 不 断 学 习 塔 养 的 。 可 以 说 ， 学 得 越 多 的 人 ， 学 新 东西 的 速度 一 定 越 快 ， 学 习 能 力也 变 得 越 踢 。 
为 ， 知 识 的 共通 性 实在 太 多 。 


读者 在 阅读 本 书 时 ， 不 应 该 企图 把 它 当成 一 本 工具 书 和 查 API 的 书 ， 而 是 应 该 把 它 当 作 一 本 梳理 理论 
体系 、 开 发 思想 、 软 件 架构 的 书 。 唯 如 此 ， 我 们 才能 适应 未 来 新 的 变化 。 


时 代 的 深 深 车 轮 推动 看 Linux 内 核 的 版 本 不 断 问 前 ， 也 推动 看 每 个 人 的 人 生 。 红 企 深 深 ， 
我 不 去 四 是 合 能 够 成 功 ， 

BEATE SIL , 

[E JA SUX R ARTE o 


最 后 ， 本 书 能 得 以 出 版 ， 要 感谢 市 领 我 辐 前 的 人 生 导 师 和 我 的 众多 小 伙伴 ， 他 们 或 者 在 我 人 生 的 关键 


时 刻 改变 了 我 ， 或 者 给 我 黑 蜡 的 程序 生涯 市 来 了 无 尽 的 快乐 和 动力 。 我 的 小 伙伴 ， 他 们 力 报 我、 或 励 我 ， 
BEAR KKR, RHE RAN AS. 


MDB, BED ESE. WER Tree. AE. REN PÈ ER XI. ERAS fI 
WE. EZA ot. AKE, RWE, EUHOX. EX IS. xe. REAT ah. TERR. REE, 
胡 良 兵 、 张 家 旺 、 王 雷 、Bryan Wu. Eric Miao, Cliff Cai. Qipan Li, Guoying Zhang. BEERS. Haoyu 
Zhong, XNA. ZAI, WE. PEE, RE, Bob Liu. ÈE, EJ Zhao, Wt, XE, Hao 
Yin ZA AK FETE, VEDO, KARRIERA FARKA IKA, FEA SCRE 
的 深 深 感 激 ， 本 书 的 写作 时 间 超 过 一 年 ， 其 过 程 是 一 种 巨大 的 肉体 和 精神 折磨 ， 没 有 他 们 的 默默 支持 和 不 
rR, ASSEN AT RESO REN; 谨 以 此 书 ， 对 为 本 书 做 出 巨大 贡献 的 编辑 、 策 划 老 师 ， 尤 其 是 张国强 老师 
致 以 深 深 的 感激 ! 


由 于 马 幅 的 关系 ， 我 没有 办 法 一 一 列举 我 要 感激 的 所 有 有人， 但是， 这 坚 年 从 你 们 那里 获得 的 ， 远 远大 
于 我 付出 的 ， 所 以 ， 在 内 心 深 人 处 ， 唯 有 怀 看 对 你 们 的 深 深 感恩 ， 不 断 前 行 。 风 月 如 歌 ， 召 歌 狂 行 。 


全 书 结构 


本 书 自 先 介 绍 Linux 设 备 驱 动 的 基础 。 第 1 草 人 简 要 地 介绍 了 设备 驱动 ， 并 从 无 操作 系统 的 设备 驱动 引出 
了 Linux 操 作 系 统 下 的 设备 驱动 ， 介 绍 了 本 书 所 基于 的 开发 环境。 第 2 章 系 统 地 讲解 了 Linux 驱 动工 程 师 应 
该 掌握 的 硬件 知识 ， 为 工程 师 打 下 Linux 驱 动 编程 的 硬件 基础 ， 详 细 介 绍 了 各 种 类 型 的 CPU、 存 储 器 和 党 
见 的 外 设 ， 并 兰 述 了 人 硬件 时 序 分 析 方 法 和 数据 手册 阅读 方法 。 第 3 章 将 Linux 议 备 张 动 放 在 Linux 2.6 1% 
景 中 进行 讲解 ， 说 明 Linux 内 核 的 编程 方法 。 由 于 驱动 编程 也 在 内 核 编程 的 范畴 ， 因 此 ， 这 一 章 实质 是 为 
编写 Linux 设 备 驱 动 打 下 软件 基础 。 


其 次 ， 讲 解 Linux 设 备 驱 动 编程 的 基础 理论 、 和 字符 设备 驱动 及 设备 驱动 设计 中 涉及 的 并 友 控 制 、 同 步 
竺 问题 。 第 4、5 半 分别 讲解 Linux 内 核 栋 块 和 Linux 设 备 文件 系统 ; 第 6~9 章 以 虚拟 设备 globalmem 利 
globalfifo 为 主线 ， 逐 步 给 其 添加 高 级 控制 功能 ， 第 10、11 章 分 别 阐述 Linux 驱 动 编程 中 所 涉及 的 中 断 和 定 
时 般 、 内 核 和 LO 操作 处 理 方法 。 


接着 ， 谢 析 复 杂 设 备 张 动 的 体系 结构 以 及 块 设备 、 网 络 设备 驱动 。 该 篇 讲解 了 设备 与 驱动 的 分 离 、 主 
机 控制 器 驱动 与 外 设 驱 动 的 分 离 ， 并 以 大 量 实例 (如 input、tty、LCD、platform、I*C、SPI、USB 等 ) 来 
佐证 。 其 中 第 12 草 和 第 17 重 遥相呼应 ， 力 图 全 面 地 展示 驱动 的 架构 。Linux 有 100 多 个 驱动 子 系 统 ， 逐 个 讲 


可 以 举一反三 。 


本 书 最 后 4 章 分 机 了 Linux 的 议 备 树 、Linux 移 植 到 新 的 SoC 上 的 具体 工作 以 及 Linux 内 核 和 张 动 的 一 些 
调试 方法 。 这 些 内 容 ， 对 于 理解 如 何 从 头 开 始 拱 建 一 个 Linux， 以 及 整个 Linux 板 级 支持 包 上 上 下 下 的 关系 


RARE. 
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2015 年 4 月 于 上 海 浦东 


第 1 章 Linux vee BAIA I JT AC a a E 


本 章 将 介绍 Linux 设 备 张 动 开 肥 的 基本 概念 ， 并 对 本 书 所 基于 的 平 侣 和 开 及 环境 进行 讲解 。 
1.1 廊 曾 明 设备 驱动 的 概 仿 和 作用 。 


1.2 广 和 1.3 证 分 列 讲 解 在 无 操作 系统 情况 下 和 有 操作 系统 情况 下 设备 驱动 的 设计 ， 退 过 对 设计 型 卉 的 
分 析 ， 讲 解 设备 驱动 与 便 件 和 操作 系统 的 关系 。 


1.4 闻 对 Linux 操 作 系 统 的 设备 驱动 进行 了 概要 性 的 介绍 ， 给 出 设备 驱动 与 整个 软 人 硬件 系统 的 关系， 分 
析 Linux 设 备 驱 动 的 重点 、 难 点 和 学 习 方 法 。 


1.5 节 对 本 书 所 基于 的 QEMU 模 拟 的 vexpress ARM Cortex-A9 四 核 开 发 板 和 开发 环境 的 安装 进行 介绍 。 


本 章 最 后 给 出 了 一 个 设备 驱动 的 “Hello World” 实 例 ， 即 最 简单 的 LED 驱 动 在 无 操作 系统 情况 下 和 Linux 
操作 系统 下 的 实现 。 


1.1 设备 驱动 的 作用 


任何 一 个 计算 机 系统 的 运转 都 是 系统 中 软 使 件 共同 努力 的 结束 ， 没 有 使 件 的 软件 是 空中 楼 阁 ， 而 没有 
软件 的 便 件 则 只 是 一 扒 废 铁 。 便 件 是 展 层 基础 ， 征 所 有 软件 得 以 运行 的 平台 ， 代 码 了 最 终 会 沙 实 为 使 件 上 的 
Za Fe SIN ae; 软件 则 实现 了 基体 应 用 ， 它 按照 各 种 不 同 的 业务 需求 而 设计 ， 并 完成 用 户 的 最 终 诉 
求 。 便 件 较 回 定 ， 软 件 则 很 赤 活 ， 可 以 适应 各 种 复杂 多 灾 的 应 用 。 因 上 此， 计算机 系统 的 软 便 件 相互 成 束 了 
对 方 。 


但 是 ， 软 硬件 之 间 同 样 存 在 着 悖 论 ， 那 就 是 软件 和 硬件 不 应 该 互相 渗透 入 对 方 的 领地 。 为 尽 可 能 快速 
地 完成 设计 ， 应 用 软件 工程 师 不 想 也 不 必 关 心 便 件 ， 而 便 件 工程 师 也 难 有 在 够 的 内 上 暇 和 能 力 来 顾及 软件 。 
辟 如 ， 应 用 软件 工程 师 在 调用 又 接 字 友 送 和 接收 数据 包 的 时 候 ， 不 必 关 心 网 卡 上 的 中 断 、 寄 存 右 、 和 存储 空 
间 、LO 端 口 、 片 选 以 及 其 他 任何 硬件 词汇 ， 在 使 用 printff〈()〉 函数 输出 信息 的 时 候 ， 他 不 用 知道 底层 究 苋 
征 怎样 把 相应 的 信息 输出 到 屏 医 或 者 串口 。 


也 惑 是 次， 应 用 软件 工程 师 需 要 看 到 一 个 疫 有 使 件 的 纯粹 的 软件 世界 ， 人 硬件 必 须 透 明 地 呈现 给 他 。 谁 
来 实现 使 件 对 应 用 软件 工程 师 的 隐形 ? 这 个 光 弯 而 艰巨 的 任务 融 落 在 了 张 动工 程 师 的 头 上 。 
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体 工 作 方式 ， 读 与 设备 的 寄存 器 ， 完 成 设备 的 轮 询 、 中 断 处 理 、DMA 通 信 ， 进 行 物理 内 存 回 虚拟 内 存 的 
映 出 等， 最终 让 通信 设备 能 收 肥 数据 ， 让 显示 设备 能 喧 示 文字 和 田 面 ， 让 存储 设备 能 记录 文件 和 数据 。 


由 此 可 见 ， 设 备 驱动 充当 了 硬件 和 应 用 软件 之 间 的 纽带 ， 应 用 软件 时 只 需要 调用 系统 软件 的 应 用 编程 
BEL] CAPT) 就 可 让 硬件 去 完成 要 求 的 工作 。 在 系统 没有 操作 系统 的 情况 下 ， 工 程 师 可 以 根据 硬件 设备 的 
特点 自行 定义 接口 ， 如 对 串口 定义 SerialSend () 、SerialRecv O ， 对 LED 定 义 LightOn O) 、 

LightOff () ， 对 Flash 定 义 FlashWr () ~ FlashRd O 等 。 而 在 有 操作 系统 的 情况 下 ， 驱 动 的 架构 则 由 相 
应 的 操作 系统 定义 ， 驱 动工 程 师 必 须 按照 相应 的 架构 设计 驱动 ， 这 样 ， 驱 动 才 能 良好 地 整合 入 操作 系统 的 
内 核 中 。 


驱动 程序 负责 硬件 和 应 用 软件 之 间 的 沟通 ， 而 驱动 工程 师 则 负 贡 硬件 工程 师 和 应 用 软件 工程 师 之 间 的 
沟通 。 目 前 ， 随 着 通信 、 电 子 行业 的 迅速 发 展 ， 全 世界 每 天 都 会 生产 大 量 新 蕊 片 ， 设 计 大 量 新 电路 板 ， 也 
因此 ， 会 有 大 量 设备 张 动 需 要 开 及 。 这 些 张 动 或 运行 在 简单 的 单 任务 环境 中 ， 或 运行 在 VxWorks、 
Linux、Windows 等 多 任务 操作 系统 环境 中 ， 它 们 及 挥 看 不 可 华人 代 的 作用 。 


1.2 无 操作 系统 时 的 设备 驱动 


并 不 是 任何 一 个 计算 机 系统 都 一 定 要 有 操作 系统 ， 在 许多 情况 下 ， 操 作 系 统 都 不 必 存 在 。 对 于 功能 比 
壁 如 ASIC 内 部 、 公 交 车 的 刷卡 机 、 电 冰箱 、 微 波 炉 、 
通 等 ， 并 不 需要 多 任务 调度 、 文 件 系 统 、 内 存 管理 等 复杂 功能 ， 用 单 任务 架构 完全 可 以 恨 好 地 文 持 它们 的 
工作 。 一 个 无 限 循 环 中 夹杂 着 对 设备 中 断 的 检测 或 者 对 设备 的 轮 询 是 这 种 系统 中 软件 的 典型 架构 ， 如 代码 


较 单 一 、 控 制 并 不 复杂 的 系统 ， 


清单 1.1 所 示 。 


代码 清单 1.1 


Onna OF WN FS 


在 这 样 的 系统 中 ， 虽 然 不 存在 操作 系统 ， 但 是 设备 张 动 则 无 论 如 何 都 必须 人 存在。 一 般 情 况 下 ， 每 一 种 
设备 张 动 都 会 定义 为 一 个 软件 模块 ， 包 售 .h 文 件 和 .c 文 件 ， 前 者 定义 该 设备 张 动 的 数据 结构 并 声明 外 部 函 
数 ， 后 痢 进 行 驱动 的 其 体 实现 。 辟 如 ， 可 以 像 代码 清早 1.2 那 样 定义 一 个 串口 的 驱动 。 


代 但 请 单 1.2 无 操作 系统 迟 况 下 串口 的 驱动 


GO =]. 03 Cl 4B CO BO pP 


while (1) 


{ 


[KKK KK KKK KK KKK KKK KK KK KK 


if (seriallnt == 1) 
/* 有 串口 中 断 * / 
l 


ProcessSerialInt(); 


serialint = 0; 
) 
if (keyInt -- 1) 
/* 有 按键 中 断 */ 
{ 
ProcessKeyInt(); 
keyInt = 0; 
) 


status = CheckXXX(); 


Switch (status) 


*serial.hrff 


KK KK ck kk k k kk k kk KKK KK KKK / 


单 任务 软件 奥 型 架构 


/ * 
es 


/* 
/* 


extern void SerialInit(void); 


extern void SerialSend(const char buf*,int count); 


Dx 


Int main(int arge, char” argy) 
{ 


处 理 串口 中 断 */ 
中 断 标 志 变量 清 O */ 


处 理 按键 中 断 */ 
中 断 标 志 变量 清 0 */ 


extern void SerralBRecv(ohar buf^,int count); 


[KKRKKK KKK KK KKK KK KKK KK KK 


*serial.cxf4t 
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TE 


初始 化 串口 */ 


void SerialInit(void) 


{ 


} 


/* 


串口 发 送 */ 


void SerialSend(const char buf*,int count) 


{ 


} 


/* 


串口 接收 */ 


void. SerialRecv (char bur*,int count) 
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23 4 

25  } 

26 /* 串口 中 断 处 理 函 数 */ 

27] void SerialIsr (void) 


Zo Y 


30 seriallInt = 1; 
31 ] 


其 他 模块 想 要 使 用 这 个 设备 的 时 候 ， 只 需要 包含 设备 驱动 的 涉 文 件 serial.h， 然 后 调用 其 中 的 外 部 接口 
pei. WM EB ERIK “Hello World” 字 符 串 ， 使 用 语句 SerialSend (“Hello World”, 11) 即 可 。 


由 此 可 见 ， 在 没有 操作 系统 的 悄 况 下 ， 人 设备 驱动 的 接口 补 且 接 提 交 给 应 用 软件 工程 是， 应 用 软件 没有 
跨越 任何 层次 就 且 接 访问 设备 驱动 的 接口 。 驱 动 包含 的 接口 疯 数 也 与 便 件 的 功能 耳 接 吻合 ， 没 有 任何 附加 
功能 。 图 1.1 所 示 为 无 操作 系统 悄 况 下 便 件 、 设 备 驱 动 与 应 用 软件 的 关系 。 


应 用 软件 


设备 驱动 





图 1.1 无 操作 系统 时 便 件 、 设 备 驱 动 和 应 用 软件 的 关系 


有 的 工程 师 把 单 任务 系统 设计 成 了 如 图 1.2 所 示 的 结构 ， 即 设备 驱动 和 具体 的 应 用 软件 模块 之 间 平 
等 ， 驱 动 中 包含 了 业务 层面 上 的 处 理 ， 这 显然 是 不 合理 的 ， 不 符合 软件 设计 中 高 内 聚 、 低 耦合 的 要 求 。 


另 一 种 不 合理 的 设计 是 直接 在 应 用 中 操作 硬件 的 寄存 器 ， 而 不 单独 设计 驱动 模块 ， 如 图 1.3 所 示 。 这 
种 设计 意味 着 系统 中 不 存在 或 未 能 充分 利用 可 重用 的 驱动 代码 。 





图 1.3 ”应 用 直接 访问 硬件 的 不 合理 设计 


1.3. 有 操作 系统 时 的 设备 驱动 


在 1.2 方 中 我 们 看 到 一 个 清晰 的 设备 驱动 ， 它 直接 运行 在 价 件 之 上 ， 丰 与 任何 操作 系统 天 联 。 当 系统 
ORRERA, BO UAE ER? 
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打交道 。 


其 次 ， 我 们 还 需要 将 驱动 融入 内 核 。 为 了 实现 这 种 融合 ， 必 须 在 所 有 设备 的 张 动 中 设计 面 问 操作 系统 
由 核 的 接口 ， 这 样 的 接口 由 操作 系统 规定 ， 对 一 闫 变 备 而 言 结构 一 致 ， 独 立 于 共 体 的 说 备 。 


由 此 可 见 ， 当 系统 中 存在 操作 系统 的 时 候 ， 了 驱动 变 成 了 连接 便 件 和 内 核 的 桥 染 。 如 图 1.4 所 示 ， 操 作 
系统 的 存在 势必 要 求 设备 驱动 附加 更 多 的 代码 和 功能 ， 把 单一 的 “驱使 硬件 说 备 行动 ” 变 成 了 操作 系统 内 与 
便 件 交互 的 模块 ， 它 对 外 呈现 为 操作 系统 的 API， 不 再 给 应 用 软件 工程 师 直 接 提 供 接口 。 

用 户 应 用 程序 


操作 系统 API 


操作 系统 


设备 驱动 中 独立 于 设备 的 接口 


没 备 驱动 中 的 硬件 操作 





图 1.4” 便 件 、 驱 动 、 操 作 系 统 和 应 用 程序 的 关系 


那么 我 们 要 问 ， 有 了 操作 系统 之 后 ， 驱 动 反 而 变 得 复 森 ， 那 要 操作 系统 干什么 ? 


自 完 ， 一 个 复 洒 的 软件 系统 需要 处 理 多 个 并 友 的 任务 ， 没 有 操作 系统 ， 想 完成 多 任务 并 友 是 很 困难 
的 。 


其 次 ， 操 作 系 统 给 我 们 提供 内 存 管理 机 制 。 一 个 典型 的 例子 是 ， 对 于 多 数 合 MMU 的 32 位 处 理 需 而 
言 ，Windows、Linux 等 操作 系统 可 以 让 每 个 进程 都 可 以 独立 地 访问 4GB 的 内 存 空 间 。 


EX TEMP FRB PSE BC i SR TE BRE AB CY AF TESS BC th SR FU Be SATA SE oa HE 
Ab ? 
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给 出 的 独立 于 设备 的 接口 而 设计 时 ， 那 么 ， 应 用 程序 将 可 使 用 统一 的 系统 调用 接口 来 访问 各 种 设备 。 对 于 
关 UNIX 的 VxWorks、Linux 等 操作 系统 而 言 ， 当 应 用 程序 通过 write O ~ read O SRA SOCEM V 
问 各 种 字符 设备 和 块 设备 ， 而 不 论 设 备 的 具体 类 型 和 工作 方式 ， 那 将 是 多 么 便利 。 


1.4 Linux 设 备 驱 动 


1.4.1 ”设备 的 分 类 及 特点 


计算 机 系统 的 硬件 主要 由 CPU、 存 储 器 和 外 设 组 成 。 随 着 IC 制 作 工艺 的 发 展 ， 目 前 ， 蕊 片 的 集成 度 越 
来 越 高 ， 往 往 在 CPU 内 部 就 集成 了 存储 器 和 外 设 适 配器 。 璧 如， 相当 多 的 ARM、PowerPC、MIPS 等 处 理 
器 都 集成 了 UART、I*C 控 制 器 、SPI 控 制 器 、USB 控 制 器 、SDRAM 控 制 嚣 等， 有 的 处 理 器 还 集成 了 
GPU (ACME aS) 、 视 频 编 解码 器 等 。 


驱动 针对 的 对 象 是 存储 器 和 外 设 〈 包 括 CPU 内 部 集成 的 存储 器 和 外 设 ) ， 而 不 是 针对 CPU 内 核 
Linux 将 存储 器 和 外 设 分 为 3 个 基础 大 类 。 

字符 设备 。 

块 设备 。 

网 络 设备 。 


字符 设备 指 那 些 必须 以 串 行 顺序 依 炊 进行 访问 的 设备 ， 如 触 抱 屏 、 磁 市 驱动 磊 、 女 标 守 。 块 设备 可 以 
按 任 意 顺 序 进 行 访 问 ， 以 块 为 单位 进行 操作 ， 如 人 硬盘、eMMC 等 。 字 符 设 备 和 块 设备 的 驱动 设计 有 出 很 大 
WAS, (He TTA INS, Ease ACH ASH BRE? open O ~ close O read O 、 


write ©) 等 进行 访问 。 


在 Linux 系 统 中 ， 网 络 设 备 面 癌 数 据 包 的 接收 和 肥大 而 设计 ， 它 并 不 倾 问 于 对 应 于 文件 系统 的 季 氮 。 
内 核 与 网 络 设备 的 通信 与 内 核 和 字符 设备 、 网 络 设备 的 通信 方式 完全 人 不同 ， 前 者 主要 还 是 使 用 套 接 字 接 
ur 


1.4.2. Linux & ka) 5 SE ^P PCIE Zi EE BR A ZR 


如 图 1.5 所 示 ， 除 网 络 设备 外 ， 字 符 设 备 与 块 设备 都 被 映射 到 Linux 文 件 系 统 的 文件 和 目录 ， 通 过 文件 
系统 的 系统 调用 接口 open O ~ write © & read () . close O 等 即 可 访问 字符 设备 和 块 设 备 。 所 有 字符 
设备 和 块 设备 都 统一 呈现 给 用 户 。Linux 的 块 设备 有 两 种 访问 方法 : 一 种 是 类 似 dd 命令 对 应 的 原始 块 设 
备 ， 如 “dev/sdb1”* 等 ， 男 外 一 种 方法 是 在 块 设备 上 建 六 FAT、EXT4、BTRFS 等 文件 系统 ， 然 后 以 文件 路 径 
如 “%home/barryhello.txt” 的 形式 进行 访问 。 在 Linux 中 ， 针 对 NOR、NAND 等 提供 了 独立 的 内 存 技术 设备 
(Memory Technology Device, MTD) 子 系统 ， 其 上 运行 YAFFS2、JFFS2、UBIFS 等 具备 探 除 和 人 负载 均衡 
能 力 的 文件 系统 。 针 对 磁盘 或 者 Flash 设 备 的 FAT、EXT4、YAFFS2、JFFS2、UBIFS 等 文件 系统 定义 了 文 
件 和 目录 在 存储 介质 上 的 组 织 。 而 Linux 的 虚拟 文件 系统 则 统一 对 它们 进行 了 抽象 。 


Linux 应 用 程序 
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图 1.5 Linuxix oka E; 1 EEA KAR 





应 用 程序 可 以 使 用 Linux 的 系统 调用 接口 编程 ， 但 也 可 使 用 C 库 函数 ， 出 于 代 人 码 可 移植 性 的 目的 ， 后 者 
更 值得 推荐 。C 库 函数 本 映 也 通过 系统 调用 接口 而 实现 ， 如 C 库 图 数 fobpen () ~ fwrite ©) ~ fread OO 、 
fclose O 分 别 会 调用 操作 系统 的 API open ©) ~ write © ~ read © ~ close © 。 


1.4.3 Linux Ska iN Bo. HE 


Linux && SRI EN Je — Ui A OE, EL BA ME o 


编写 Linux 设 备 驱 动 要 求 工 程 师 有 非常 好 的 硬件 基础 ， 懂 得 SRAM、Flash、SDRAM、 人 磁盘 的 读 写 方 
式 ，UART、IC、USB 等 设备 的 接口 以 及 轮 询 、 中 断 、DMA 的 原理 ，PCI 总 线 的 工作 方式 以 及 CPU 的 内 存 
管理 单元 (MMU) 等 。 


编号 Linux 设 备 驱 动 要 求 工程 师 有 有 非 第 好 的 C 语 言 基 础 ， 能 灵活 地 运用 C 语 言 的 结构 体 、 指 秆 、 函 数 指 
针 及 内 存 动态 申请 和 和 释放 等 。 


编写 Linux 设 备 驱 动 要 求 工 程 师 有 一 定 的 Linux 内 核 基 础 ， 虽 然 并 不 要 求 工 程 师 对 内 核 各 个 部 分 有 深入 
的 研究 ， 但 人 至少 要 明日 驱动 与 内 核 的 搁 口 。 尤 其 是 对 于 块 设备 、 网 络 说 备 、Flash 讽 备 、 串 口 设 备 等 复杂 
设备 ， 内 核定 义 的 驱动 体系 结构 本 号 就 非常 复 洒 。 


编号 Linux 设 备 驱 动 要 求 工 程 师 有 非 第 好 的 多 任务 并 友 控 制 和 同步 的 基础 ， 因 为 在 驱动 中 会 大 量 使 用 
Aes. BR. fas, SENIER Lil 


PRAWEJ AER A USE. AOR ET AE iS EN 2 STE A o EE ER, AN 
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动手 实践 永远 是 学 习 任 何 软件 开发 的 最 好 方法 ， 和 学 习 Linux 设 备 驱 动 也 不 例外 。 因 些 ， 本 书 使 用 的 是 
通过 QEMU 模 拟 的 ARM vexpress 电 路 板 ， 本 书 中 的 所 有 实例 均 可 在 该 “电路 板 ” 上 直接 执行 。 


阅读 经 典 书 籍 和 参与 Linux 和 社区 的 讨论 也 是 非常 好 的 学 习 方 法 。Linux 内 核 源 代 人 码 中 包 食 了 一 个 
Documentation 上 有 目录， 其 中 包含 了 一 批 内 核 设 计 文档 ， 全 部 是 文本 文件 。 人 很 次 憾 ， 这 些 文档 的 组 织 不 太 
好 ， 内 容 也 不 够 细致 。 


尝 习 Linux 设 备 驱 动 的 一 个 注意 事项 是 要 避免 管 中 蜂 腥 、 只 见 树木 不 见 和 森林 ， 因 为 各 类 Linux 设 备 驱 动 
都 从 属于 一 个 Linux 设 备 驱 动 的 架构 ， 单 纯 而 片面 地 学 习 几 个 函数 、 几 个 数据 结构 是 不 可 能 理 清 驱动 中 各 
组 成 部 分 之 间 的 关系 的 。 因 此 ，Linux 驱 动 的 分 析 方 法 是 点 面 结 合 ， 将 对 函数 和 数据 结构 的 理解 放 在 整体 
染 构 的 背景 之 中 。 这 是 本 书 各 半 市 讲解 驱动 的 方法 。 


1.5 _ Linux 设备 豫 动 的 开发 环境 构建 
1.5.1] PC 上 的 Linux 环 境 


本 书 配 套 资源 近 供 了 一 个 Ubuntu 的 VirtualBox 庶 拟 机 映像 ， 访 虚拟 机 上 安 肥 了 本 书 涉 及 的 所 有 源 代 
但、 工具 链 和 各 种 开 肥 工具 ， 谈 者 无 顷 再 安 冯 和 配置 任何 环境 。 该 虚拟 机 可 运行 于 Windows、Ubuntu 等 操 
作 系 统 中 ， 运 行 方 法 如 下 。 


1) 安装 VirtualBox。 

如 果 主 机 为 Windows 系 统 ， 请 安装 VirtualBox WIN|KA: 

Virtual Box-4.3.20-96997-Win.exe 

TA xb JUbuntussSt, S 48 VirtualBox DEB 版 本 : 
virtualbox-4.3 4.3.20-96996-Ubuntu-precise 1386.deb 

2) "JE VirtualBox extension. 

Oracle VM VirtualBox Extension Pack-4.3.20-96996.vbox-extpack 
3) 准备 虚拟 机 镜像 。 

解压 Baohua Linux.vmdk.rar 为 Baohua Linux.vmdk 

4) 新 建 虚拟 机 。 


i511 58127 222€ HJ Oracle VM VirtualBox, $i E CONO ”图 标 创建 虚拟 机 ,， “类 型 ”选择 Linux,， “版 
本 "选择 Ubuntu (32bit) ， 名 称 可 以 取 名 为 “linux-trainine”， 如 图 1.6 所 示 。 
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虚拟 电脑 名 称 和 系统 类 型 


诗 迁 扼 新 虚拟 所 脑 的 撞 述 名 称 及 要 交 莹 的 操作 系 纺 类 型 。 北 名 称 将 局 于 款 
WEBS. 























1.6 新 建 Ubuntu 32 位 虚拟 机 


单 击 “ 下 一 步 ON) ”按钮 ， 设 置 内 存 ， 如 图 1.7 所 示 。 


$ Oracle VM VirtualBox 管理 器 cji X% 
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图 1.7 设置 虚拟 机 的 内 存 


继续 单 击 “ 下 一 步 (N) ”按钮 。 设 置 价 盘 ， 注 意 选 择 “ 使 用 已 有 的 虚拟 便 盘 文件 CUO eee, E 
拟人 硬 检 文件 是 第 3 步 解 压 之 后 的 “Baohua Linux.vmdk”， 如 图 1.8 所 示 。 
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虚拟 硬盘 


你 可 以 秘 加 喜 扳 现 得 到 新 成 拟 电 脑 中 。 新 建 一 个 盐 拟 现 坦 文件 或 从 列表 或 
ELA Xie (em A. 


















如 果 想 更 灵活 过 医 蛙 虚报 吏 盘 ， 也 可 以 路 过 这 一 步 ， 在 创建 虚拟 里 驴 之 后 
ERREFE. 


ZHE 8.00 GB. 
TRES, ED) 
pen Ty te z(C) 


















E, 16.00 GB) 


NEAR: 
ES SE 


-— e.. 


图 1.8 ”设置 虚拟 机 便 盘 镜像 


Windows DirectS 
ICH AC97 


最 后 ， 单 击 “ 创 建 ? 按 钮 以 完成 虚拟 机 的 构建 工作 。 
5) 局 动 虚拟 机 。 


在 VirtualBox 上 选择 先前 创建 的 “linux-training” 虚 拟 机 并 蛙 击 “局 动 ”图 标 ， 如 图 1.9 所 示 。 








SH Oracle VM VirtualBox 管理 器 — 
pt. 
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FR linux-training 
iRÍEXÉ: Ubuntu (32 bit) 





Zw 512MB 
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Spm: VI-x/AMD-V, #247, PAE/NX 











nta: Windows DirectSound 
ERBA: ICH AC97 





1.9 ”启动 虚拟 机 


虚拟 机 的 账号 和 密码 都 是 “baohua”， 如 果 要 执行 特权 命令 ，sudo 密 人 码 也 是 “baohua”， 如 图 1.10 所 示 。 











[$7 linux-training [正在 运行 ] - Oracle VM VirtualBox 
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图 1.10 ”虚拟 机 登录 界面 


本 书 配 大 的 Ubuntu 版 本 是 14.04， 但 是 内 核 版 本 升级 到 了 4.0-rcl1， 以 保证 和 本 书 讲解 内 容 的 版 本 一 
BN 


注意 事项 : 


如 果 发 现 VirtualBox 个 稳定 或 者 五 莱 容 性 问题 (经 过 测试 ， 有 极 少 数 PC 和 存在 此 问题 ) ， 也 可 以 安 状 
VMware (Baohua Linux.vmdk 也 是 文 持 VMware 的 ) 。 


如 果 光 盘 不 小 心 损坏 ， 可 以 从 链接 : http://pan.baidu.com/s/1c08gzi4. (密码 为 puki) 处 提取 网 盘 上 的 文 
件 。 


1.5.2 ”QEMU 实 验 平 台 


QEMU 模 拟 了 vexpress Cortex-A9SMP 四 核 处 理 器 开发 板 ， 板 上 集成 了 Flash、SD、LIC、LCD 等 。ARM 
公司 的 Versatile Express 系 列 开 友 平 台所 供 了 超 快 的 环境 ， 用 于 为 下 一 代 片 上 系统 设计 方案 建立 原型 ， 比 如 
Cortex-A9Quad Core. 


fEhttp://www.arm.com/zh/products/tools/development-boards/versatile-express/index.php_E n] URME ze Se 
T Versatile Express 系 列 开 发 平台 的 细 市 。 


本 书 配 侠 虚 拟 机 映像 中 已 经 安装 好 了 工具 链 ， 包 含 arm-linux-gnueabih 人 gcc 和 arm-linux-gnueabi-gcc 两 个 
版 本 。 


Linux 内 核 在 /home/baohua/develop/linux 目 录 中 ， 在 该 目录 下 和 耐 ， 包 含 内 核 编 详 脚本 : 


export ARCH=arm 

export CROSS COMPILE-arm-linux-gnueabi- 
make LDDD3 vexpress defconfig 

make zImage -j8 

make modules -j8 

make dtbs 

cp arch/arm/boot/zlImage extra/ 

cp arch/arm/boot/dts/*ca9.dtb extra/ 
Cp .config extra/ 


由 此 可 见 ， 我 们 用 的 默认 内 核 配 置 文件 是 LDDD3 vexpress defconfig。 上 述 脚本 也 会 日 动 将 编译 好 的 
ZImage 和 dtbs 复 制 到 extra 目 录 中 。 


extra 目 录 下 的 vexpress.img 古 一 张 虚 拟 的 SD 卡 ， 将 作为 根 文件 系统 的 存放 介质 。 它 能 以 loop 的 形式 被 
挂 载 (mount ， 璧 如 在 /home/baohua/developy/linux 目 录 下 运行 。 


sudo mount -o loop,offset-5$((2048*512)) extra/vexpress.img extra/img 


可 以 把 vexpress.img 的 根 文 件 系统 分 区 挂 载 到 extra/img， 这 样 我 们 可 以 在 目标 板 的 根 文 件 系统 中 放置 我 


们 豆 欢 的 内 容 。 


/home/baohua/develop/linux 目 录 下 面 有 个 编译 模块 的 脚本 module.sh， 它 会 自动 编译 内 核 模块 并 安装 到 


vexpress.img 中 ， 其 内 容 如 下 : 


make ARCH-arm CROSS COMPILE-arm-linux-gnueabi- modules 

sudo mount -o loop,offset=S ((2048*512)) extra/vexpress.img extra/img 
sudo make ARCH-arm modules install INSTALL MOD PATH-extra/img 

sudo umount extra/img 


运行 extra 下 面 的 run-nolcd.sh 可 以 司 动 一 个 不 台 LCD 的 ARM Linux. run-noled.shHf] Pj 4 7Jqemu-system- 


arm-nographic-sd vexpress.img-M vexpress-a9-m 512M-kernel zImage-dtb vexpress-v2p-ca9.dtb-smp 4- 


append" init=/linuxrc root=/dev/mmcblkOp1rw rootwait earlyprintk console=ttyAMA0"2>/devnull， 运 行 结果 为 : 


baohua8baohua-VirtualBox:-/develop/linux/extra$ ./run-nolcd.sh 
Uncompressing Linux... done, booting the kernel. 
Booting Linux on physical CPU 有 XU 
Initializing Cgroup Subsys OCDUSOLt 
Linux version 3.16.0+ (baohua@baohua-VirtualBox) (gcc version 4.7.3 (Ubuntu/ 
Linaro 4.7.3-12ubuntul) ) #3 SMP Mon Dec 1 16:53:04 CST 2014 
CPU: ARMV7 Processor [410fc090] revision 0 (ARMv7), cr=10c53c7d 
CPU: PIPT / VIPT nonaliasing data cache, VIPT aliasing instruction cache 
Machine model: V2P-CA9 
bootconsole [earlycon0] enabled 
Memory policy: Data cache writealloc 
PERCPU: Embedded 7 pages/cpu @9fbcd000 s7232 r8192 d13248 u32768 
Built 1 zonelists in Zone order, mobility grouping on. Total pages: 130048 
Kernel command line: init=/linuxrc root-/dev/mmcblkO0pl rw rootwait earlyprintk 
console-ttyAMAO 
PID hash table entries: 2048 (order: 1, 8192 bytes) 
Dentry cache hash table entries: 65536 (order: 6, 262144 bytes) 
Inode-cache hash table entries: 32768 (order: 5, 131072 bytes) 
Memory: 513088K/524288K available (4583K kernel code, 188K rwdata, 1292K rodata, 
247K init, 149K bss, 11200K reserved) 
Virtual kernel memory layout: 
Vector + OxXEEETOUOD = DEXFTrrrrlo00 
fixmap : Oxffc00000 = Oxffe00000 
vmalloc : 0xa0800000 - Oxff000000 
lowmem : 0x80000000 - 0xa0000000 512 MB 
modules + 0x7f£000000 = 0x80000000 16 MB 


( 4 kB) 
( ) 
( ) 
( ) 
( ) 
‘text s 0xo0009000 = OxoU05CcoODZcC (5877 kB) 
( ) 
( ) 
( ) 
O 4 


2048 kB 
1512. MB 


sinit + 0x98050060000 = 0x80603c40 248 kB 
.data : 0x80604000 - 0x80633100 189 kB 
Dess t 0x506331098 = 0x9o06550290 150 kB 
SLUB: HWalign-64, Order=0-3, MinObjects=0, CPUs 
Hierarchical RCU implementation. 
RCU restricting CPUS from NR CPUS=8 to nr opu 1d09-4. 
RCU: Adjusting geometry for rcu fanout lear-l16, nr cpu ids-4 
NR IRBOSTIO nr SS 16 
L2C: platform modifies aux control register: 0x02020000 -> 0x02420000 
L2C: device tree omits to specify unified cache 
t20} DT/ platform Modifies. ux Control register: 0x02020000 => 0x02420000 
L2C-310 enabling early BRESP for Cortex-A9 
L2C-310. full Line of zeros enabled for Cortex-Ag 
L2C-310 dynamic clock gating disabled, standby mode disabled 
L2C-310 cache controller enabled, 8 ways, 128 kB 
L2C-310: CACHE ID 0x410000c8, AUX CTRL 0x46420001 
Smp. cw: -Clock not Sound 2 
sched clock: 32 bits at 24MHz, resolution 41ns$, wraps every 1790956969942ns$ 
Console: colour dummy device 80x30. 


, Nodes-1 


运行 extra 下 面 的 run-lcd.sh 可 以 启动 一 个 合 LCD 的 ARM Linux， 运 行 结 果 如 图 1.11 所 示 。 


sp1760 isp1760: USB bus 1 deregistered 
sp1?760: Failed to register the HCD device 
sbcore: registered new interface driver usb-storage 
ousedeuv: PS/Z mouse device common for all mice 
tc—p1031 mb:rtc: rtc core: registered pl031 as rtce 
mci-pli8x mb:mmci: mmcO: PL181 manf 41 revO at 0x10005000 irq 41,42 (pio) 
mci-plittx mbimmci: DMA channels RX none, TX none 
cdtrig-cpu: registered to indicate activity on CPUs 
sbeore: registered new interface driver usbhid 
sbhid: USB HID core driver 
nput: AT Rau Set Z keyboard as /devices/nmb:kniO/serioO/input~inputo 
mcO: host does not support reading read-only switch. assuming write-enable. 
mcO: new SD card at address 4567 
mcblkO: mmc0:4567 QEMU' 48.0 MiB 
aci-plO41 mb:aaci: ARM AC'97 Interface PLO41 reuO at 0x10004000, irq 43 
aci-—p1041 mb:aaci: FIFO 512 entries 
CP: cubic registered 
ET: Registered protocol family 1? 
pnet: Installing 9P2000 support 
mmcblkO: pi 
tc-p1031 mb:rtc: setting system clock to 2015-02-23 03:30:16 UTC (1424662216) 
LSA device list: 
nc’ 9? Interface PLO41 rcuO at 0x10004000, irq 13 

.; ImExPS72 Generic Explorer Mouse as /devices/mb:kmiisseriotl,inputsinput2 
XT2-fs (mmeblkOpi): warning: mounting unchecked fs, running e2fsck is recommended 
FS: Mounted root (extZz filesystem) on device 179:1. 
evtmpfs: mounted 
reeing unused kernel memory: 244K jo5c6000 80603000 ) 
andom: nonblocking pool is initialized 
elcome to 


2N 
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图 1.11 4&LCDHJARM Linux 
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例 ， 璧 如 人 home/baohua/developytraining/kernel 中 就 包含 了 globalfife、globalmem 等 ， 这 些 目录 的 源 代 码 都 包 
含 了 Makefile， 在 其 中 直接 make， 生 成 的 .ko 可 以 直接 在 Ubuntu 上 运行 。 


1.5.3” 源 代码 阅读 和 编辑 


源 代 人 码 是 学 习 Linux 的 权威 资料 ， 在 Windows 上 阅 全 Linux 产 代 公 的 最 佳 工具 是 Source Insight， 在 其 中 
建立 一 个 工程 ， 并 将 Linux 的 所 有 源 代 人 码 加 入 该 工程 ， 同 步 这 个 工程 之 后 ， 我 们 将 能 非常 便捷 地 在 代码 之 
则 进行 天 联 阅 读 ， 如 图 1.12 所 示 。 

类 似 http://lxr.free-electrons.com/、http://lxr.oss.org.cn/ 这 样 的 网 站 提供 了 Linux 内 核 源 代码 的 交叉 索引 ， 
在 其 中 输入 Linux 内 核 中 的 冰 数 、 数 据 结 构 或 变量 的 名 称 束 可 以 直接 得 到 以 超 链接 形式 给 出 的 定义 和 引用 
它 的 所 有 位 置 。 还 有 一 些 网 站 也 提供 了 Linux 内 核 中 函数 、 变 量 和 数据 结构 的 搜索 功能 ， 在 google 中 搜 


“linux identifier search” n] (5. 
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= File Edit Search Project Options View Window Help Work =|! x! 
JOecEBBB 6\/x=e EXE PRAEBET sm e-cp3s-oms!i 
I2c-core.c Mim *~ Linux Project € &|-[ni xj 
| ) Y 
4 void 2c clients con | eName 

E - 一 |2c-amd756.c [linux-2.5.15NdriversN2cNbusses] 3. 

a rum head it 12c-amd8111.c (linux-2.6.16\drivers\i2c\busses) 10640 2006-3-20 

= n ect i2c- - =e} ll2c-au1550.c [inuw2616vdivers ic \busses] 9401 2006-320 

e 12c-a eid a \i2c\busses] 

a down(Sadap- ec-COre.C Uinux-e.b bsdi Mec] 

al list for each A I2c-dev.c [inu 2.6 16\diivers\i2c] 13663 

E ize c client = list en ||I2c-dev.h (inux-2.6.16NncludeMinux) 1515 2006-3-20 

pac cli if C try. modu! ll2c ke (linus-2.6. 16 driv d 8554 2006-3-20 

E ize ntinue;  ||l2c-frodo.c (linux-2 6. 16NdriversNZcNbusses] 1808 2006-3-20 

E ac FS if (NULL i" 12c dida .c flinux-2,6.16\driv wi bur s) 4527 2006-320 
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司 2c ov (Biadap- scit. lo l2c- iop3x X.C [linux-2.5. 16 *driversNi2cNbusses) 13212 2006-3-20 
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i2c | clients | command AT Function in [2c-core.c [ 2L a [18 lines] 日 | -iDix 


a VA eC EN (struct i2=_adapter “adap, unsigned int cmd, void *arg) j~ 
{ — 
ruct li x s se “tem; 
po uct j lient “client; 可 | 
à] «C Et 2 A» db ES 
| Line 511 Col15 i2c clients command Checking for modified files... “INS” 








|1.12 ”在 Source Insight 中 阅读 Linux 源 代码 


H, Hk 


fE Linux EPLE [x] 1582 $8 Linux US R3 Ys Ay 3X xe vime-escopeBV A vimtctags, vim — ^T AS 48 AE 
而 cscope 和 ctags 则 可 建立 代码 索引 ， 建 议 恋 者 尽快 使 用 基于 文本 界面 全 键盘 操作 的 vim 编 辑 右 ， 如 图 1.13 上 所 


小。 


LX TTE baohua@baohua-VirtualBox: ~/develop/linux 
ile Edit View Search Terminal Tabs Help 


* Copyright (C) 2014 Barry Song (baohua@kernel.org) 
* 

* Licensed under GPLv2 or Later. 

af 4 


9 #include <linux/module.h> 
10 #include <linux/types.h> 
11 #1nclude <LLnmUX/Sched .h> 

<linux/init.h> 


14 #include <Linux/slab.h> 

15 Binclude <Linux/poll.h> 

16 

17 #define GLOBALFIFO SIZE 0x1000 
18 #define FIFO CLEAR 0x1 

19 #define GLOBALFTFO MAJOR 249 


PAi] 
static int Eats obalfifo nalor = GLOBALFIFO_MAJOR; 
ul am(globaLlfi fo | major, int, S IRUGO) 


23 
struct dim dem Ht fo_dev di. 
25 cdev 


ee ed qim curre 


t len 
siue sp z en cLOBAL FIFO. SIZE]; 
sake 


sous 
sr g bed t r wait; 
wait queue head t w wait; 





名 1.13 ”vim 编辑 器 


1.6 设备 驱动 Hello World: LEDJEKZJJ 


1.6.1 无 操作 系统 时 的 LED 驰 动 


在 仍 入 式 系统 的 设计 中 ，LED 一 般 直接 由 CPU 的 GPIO (通用 可 编程 WO〉 口 控制 。GPIO 一 般 由 两 组 寄 
存 器 控制 ， 即 一 组 控制 寄存 器 和 一 组 数据 寄存 器 。 控 制 襟 存 器 可 设置 GPIO 口 的 工作 方式 为 输入 或 者 输 
出 。 当 引 脚 被 设置 为 输出 时 ， 向 数据 寄存 器 的 对 应 位 写 入 1 和 0 会 分 别 在 引 脚 上 产生 高 电 平 和 低 电 平 ， 当 
引 脚 设 置 为 输入 时 ， 读 取 数 据 寄 存 器 的 对 应 位 可 获得 引 脚 上 的 电 平 为 高 或 低 。 


在 本 例子 中 ， 我 们 屏蔽 具体 CPU 的 差异 ， 假 设 在 GPIO REG CTRL 物理 地 址 中 控制 寄存 器 处 的 第 n 位 
写 入 1 可 设置 GPIO 口 为 输出 ， 在 地 址 GPIO REG DATIA 物 理 地 址 中 数据 寄存 器 的 第 n 位 写 入 1 或 0 可 在 引 脚 
上 产生 高 或 低 电 平 ， 则 在 无 操作 系统 的 情况 下 ， 设 备 驱动 见 代码 清音 1.3。 


代 但 清单 1.3 ”无 操作 系统 时 的 LED 了 驱动 


L 4define reg gpio ctrl *(volatile ant *)(ToVirtual(GPIO REG.CTRL)) 
2 #define reg gpio data *(volatile int *) (ToVirtual(GPIO REG DATA) ) 
3 /* 初始 化 LED */ 

4 void LightInit(void) 

9" d 

6 reg gpio ctrl |= (1 << n); /* ®BGPIOAMH */ 

7} 

8 


9 /* ARLED */ 
10 void LightOn (void) 
Ll. 4 
12 reg gpio data |= (1 << n); /* 在 GPIO 上 输出 高 电 平 */ 
13 ) 


LS f* ALED */ 

16 void LightOff (void) 

17 { 

18 reg gpio data &= ~(1 << n); /* 在 GPIO 上 输出 低 电 平 */ 
} 


上 述 程序 中 的 Lightmit © ~ LightOn © ~ LightOff O 都 直接 作为 驱动 提供 给 应 用 程序 的 外 部 接口 
函数 。 程 序 中 ToVirtual O 的 作用 是 当 系 统 局 动 了 硬件 MMU 之 后 ， 根 据 物理 地 址 和 虚拟 地 址 的 映射 天 
系 ， 将 寄存 器 的 物理 地 址 转化 为 虚拟 地 址 。 


1.6.2 ”Linux 下 的 LED 了 驱动 


在 Linux 下 ， 可 以 使 用 字符 设备 驱动 的 框架 来 编号 对 应 于 代码 清单 1.3 的 LED 设 备 驱动 〈 这 里 仅仅 是 为 
了 方便 讲解 ， 内 核 中 实际 实现 了 一 个 提供 sysfs 节 点 的 GPIO LEDJEZJ, fT drivers/leds/leds-gpio.cP) , $& 
作 便 件 的 Lightmit © ~ LightOn O 、LightO 企 () 函数 仍然 需要 ， 但 是 ， 遭 循 Linux 编 程 的 命名 习惯 ， 重 
新 将 其 命名 为 light init © ~ light on © light off O 。 这 些 函 数 将 被 LED 设 备 驱 动 中 独立 于 设备 并 针 
对 内 核 的 接口 进行 调用 ， 代 码 清单 1.4 给 出 了 Linux 下 的 LED 驱 动 ， 此 时 读者 并 不 需要 能 读 懂 这 些 代 码 。 


代码 清单 1.4  Linuxf&fE 2&2 FÜJLEDHEXZJJ 


include .../* 包含 内 核 中 的 多 个 头 文件 */ 
/* 设备 结构 体 */ 
struct Ligat dev 4 
struct cdev cdev; /* 字符 设备 Cdev 结 构 体 */ 
unsigned char vaule; /* 工 己 D 亮 时 为 1， 熄 灭 时 为 0， 用 户 可 读 写 此 值 */ 





); 
struct light dev *light devp; 
int light major = LIGHT MAJOR; 
9 MODULE AUTHOR("Barry Song <2lcnbao@gmail.com>"); 
10 MODULE LICENSE ("Dual BSD/GPL"); 
11 /* 打开 和 关闭 函数 */ 
Eee 


Ona OF WN FS 


13. 4 

14 Struct light dev “dev; 

15 /* 获得 设备 结构 体 指针 */ 

16 dey = container oi (inode--1 Cder; struct Ligii dev; cdev); 
17 /* 让 设备 结构 体 作为 设备 的 私有 信息 */ 

18 lllpe5prrvate data = dev; 

19 return 0; 

20 + 

Zl int Light relesseistruco inode. *1noOs, struct tile FELIP) 

22 1 

as return: O; 

24 } 

25 /* 读 写 设备 + 可 以 不 需要 */ 

20 BOLZG © Ligii regoistruct file “tile, Char . user “OnLy, Size T Coun, 
A] Loiti t wt pos) 

28 { 

29 struct light dev *dev = filp->private data; /* 获得 设备 结构 体 */ 
30 LI (EOPDY to user(Dul, «(dev=-value), 1)») 

31 return  -EFAULT; 

32 return: 15 

oo. s 

34 SSIZe L Light weiee (Struct. file *filp; Const Char User *Dui, oiz- C Count, 
259 Loff t #1 pos) 

36. 1 

2 struct Ligne dev dev = [111p private daca; 

38 IL {COPY Irom userie(deveovalus), Dur. 1)) 

39 return  -HEFAULT; 

40 /* 根据 写 入 的 值 点 亮 和 熄灭 LED */ 

41 if (dev->value == 1) 

42 lnc OM.) 

43 else 

44 light oLb07 

45 return 1$ 

46 } 


47 /* ioctlmA/ */ 
48 int light ioctl(struct inode *inode, struct file *filp, unsigned int cmd, 


49 unsigned long arg) 
50 { 

si Suruce Light dev *devy = ILlIp= privare data; 
52 Switch (cmd) { 

93 case LIGHT ON: 

54 dev-»value = 1; 
bo Laois QI 

56 break; 

Ou Gase LIGHT OFF; 

58 dev->value = 0; 
59 下 

60 break; 

61 default: 


62 /* 不 能 支持 的 命令 */ 


63 return  -ENOTTY; 


64 ) 

65 return 0; 

66 } 

o7 Struct file operations. Laght. Tops: =-{ 
68 .owner = THIS MODULE, 

o9 Lead = Jigit Tedd, 

70 write = Light write, 

gai OCT. = Light, IOC LL; 

Ja Open = LINL Open, 

73 phe Cace = 11000, relegse, 
Ja Fr 


75 /* 设置 字符 设备 cdev 结 构 体 */ 
T6 Static volo Light setup ocdeví(struct Lignit dev “dev, int 1ndex) 


ce 4 

78 int err, devno = MKDEV (Light major, index); 

79 cdev 1inazt(&dev-»cdev, &lrght fops); 

80 deve-»cdev.owner = THIS MODULE; 

81 dev=>cdev.0ps = &lrght tops; 

82 err = Cdev add(&dev-»cdev, devno, 1); 

83 if (err) 

84 Printk( KERN NOTICE "Error vd adding LED<d", err, index); 
oo F 


86 /* 模块 加 载 函 数 */ 
or ant, Light Tnit(YeLdQ) 





88 { 
89 int result; 
90 dev t dev = MKDEV (light major, 0)»; 
91 /* 申请 字符 设备 号 */ 
OZ if (light major) 
93 result = register chroev reglon(devy, L; "LhesD*)j 
94 else { 
95 result = alloo-ohrdev regrion(sdev, D, i, “LED"); 
96 light major = MAJOR (dev); 
97 } 
98 if (result < 0) 
99 return result: 
100 /* 分 配 设备 结构 体 的 内 存 */ 
101 light devp = kmalloc(sizeof(struct laght dev), GEP KERNEL)? 
102 LE (Ligne devp) 4 
159 result =  -ENOMEM; 
104 goto Tani malloc; 
1:0 } 
106 imnemsetilrgNt devp, OQ, SLzeori(tstruct light dèv); 
107 light. setup cdey( light. devp, D); 
109 Light gpro niti); 
109 return 0 
110 fail malloc: 
111 unrtegrster- chrdev regron(dev, Light devpl; 
112 returni result; 
lio jJ 


114 /* 模块 卸载 函数 */ 
115 vöid light cleanup (void) 


116 d 

117 cdev del(&light devp-»cdev);  /* 删除 字符 设备 结构 体 */ 

118 kfree(light devp); /* 释放 在 light init 中 分 配 的 内 存 */ 

119 unregister chrdev region (MKDEV (light major, 0), 1); /* 删除 字符 设备 */ 
120 ] 


L21 module init(liright Init); 
122 Modüle exit(ilight cleanup); 


na US WT BS ANH FL Se AN eA. ER SARI 1.3 P AERE RAA mA A 
fd IJATBÉÓYBRLE YI KEAREN, wW file operations, cdev, Linux A t% PE p3 HA RIT 
MODULE AUTHOR, MODULE LICENSE, module init, module _ exit， 以 及 用 于 字符 设备 注册 、 分 配 和 
注销 的 函数 register chrdev region () . alloc chrdev region () ~ unregister chrdev region () 等 。 我 们 也 
不 能 理解 为 什么 驱动 中 要 包含 light init © ~ light cleanup () ~ light read () ~ light write © 等 函数 。 


此 时 ， 我 们 只 需要 有 一 个 感性 认识 ， 那 融 是 ， 上 述 暂 时 阳 生 的 元 素 都 是 Linux 内 核 为 字符 设备 定义 
的 ， 以 实现 张 动 导 内 核 接口 而 定义 的 。Linux 对 各 次 设备 的 张 劲 都 定义 了 奖 似 的 数据 结构 和 冰 数 。 


第 2 章 ” 张 动议 计 的 使 件 葵 础 
本 章 导读 


本 革 讲 述 故 层 驱 动工 程 师 必 备 的 价 件 基础 ， 给 出 了 骨 入 式 系 统 蚀 件 原 理 及 分 析 方 法 的 一 个 完整 而 简洁 
的 全 景 视图 。 


2.1 节 插 述 了 微 控 制 占 、 和 做 处理 融 、 数 字 信 号 处 理 如 以 及 应 用 于 特定 领域 的 处 理 占 各 目的 特 操 ， 分 析 
J 处理 如 的 体系 结构 和 指令 集 。 


2.2 节 对 艇 入 式 系统 中 所 使 用 的 各 类 存储 器 与 CPU 的 接口 、 应 用 领域 及 特点 进行 了 归纳 整理 。 


2.3 节 分 析 了 常见 的 外 设 接 口 与 总 线 的 工作 方式 ， 包 括 串 口 、[C、SPI、USB、 以 太 网 接口 、PCI 和 


PCI-E、SD 和 SDIO 等 。 


舱 入 式 系统 硬件 电路 中 经 常会 使 用 CPLD 和 FPGA， 作 为 驱动 工程 师 ， 我 们 不 需要 掌握 CPLD 和 FPGA 
的 开发 方法 ， 但 是 需要 知道 它们 在 电路 中 能 完成 什么 工作 ，2.4 市 讲解 了 这 项 内 容 。 


2.5~2.7 市 给 出 了 在 实际 项 目 开 友 过 程 中 便 件 分 析 的 方法 ， 包 括 如 何 进行 原理 图 分 析 、 时 序 分 析 及 如 
何 快速 地 从 心 厂 数 据 手 册 中 获取 有 效 信息 。 


2.8 廊 讲解 了 调试 过 程 中 第 用 仪 顷 仪 表 的 使 用 方法 ， 涉 及 万 用 表 、 示 波 胡 和 地 和 辑 分 析 仪 。 


2.] Abs as 


2.1.1 3S8 AAAS ss 


目前 主流 的 通用 处 理 嚣 〈GPP) ZKHS HERA) 的 心 户 设 计 方 法 ， 集 成 了 各 种 功能 模块 ， 
一 种 功能 都 是 由 硬件 描述 语言 设计 程序 ， 然 后 在 SoC 内 由 电路 实现 的 。 在 SoC 中 ， 每 一 个 模块 不 是 一 个 已 
经 设计 成 玖 的 ASIC 套 件 ， 而 是 利用 导 卢 的 一 部 分 资源 去 实现 东 种 传统 的 功能 ， 将 各 种 组 件 床 用 关 似 搭 积 
木 的 方法 组 合 在 一 起 。 


ARM 内 核 的 设计 技术 被 授权 给 数 百 家 半导体 厂商 ， 做 成 不 同 的 SoC 心 片 。ARM 的 功 耗 很 低 ， 在 当今 
最 活跃 的 无 线 局 域 网 、3G、 手 机 终端 、 手 持 设备 、 有 线 网 络 通信 设备 等 中 应 用 非常 广泛 。 至 本 书 编写 
时 ， 市 面 上 绝 大 多 数 智能 手机 、 平 板 电脑 都 使 用 ARM SoC 作 为 主 探 芯片 。 很 多 ARM 主 控 芯 片 的 集成 度 非 
常 高 ， 除 了 集成 多 核 ARM 以 外 ， 还 可 能 集成 图 形 处 理 器 、 视 频 编 解码 器 、 浮 点 协 处 理 器 、GPS、WiFi、 
览 牙 、 基 带 、Camera 等 一 系列 功能 。 比 如 ， 高 通 的 Snapdragon 810 束 集成 了 如 图 2.1 所 示 的 各 种 模块 。 


— 


4% gen CAT 6LTE 
Up:to.-3x20MHz CA 





图 2.1 ARM SoC 邢 例 : Snapdragon 810 


FARM #4 SJALE T Fr BEN THE ELF 13S (Qualcomm) ~ ZÆ (Samsung) . XKfBiA (Nvidia) . X 
i (Marvell) 、 联 发 科 (MTK) 、 海 思 (HiSilicon) 、 展 讯 CSpreadtrum). <=. He (4s (TD 、 博 通 
(Broadcom) M) GYR FAL HLS. 


中 央 处 理 器 的 体系 结构 可 以 分 为 两 类 ， 一 类 为 冯 : 诺 依 曼 结构 ， 男 一 类 为 哈佛 结构 。Intel 公 司 的 中 央 
处 理 占 、ARMHFJARM7、MIPS 公 司 的 MIPS 处 理 器 米 用 了 冯 : 语 依 曼 结构 ; 而 AVR、ARM9、ARM10、 
ARMI11 以 及 Cortex A 系 列 等 则 采用 了 哈佛 结构 。 


冯 : 诡 依 曼 络 构 也 称 普林斯顿 结构 ， 和 是 一 种 将 程序 指令 存储 规 和 数据 存储 融合 并 在 一 起 的 存储 融 结 
构 。 程 序 指令 存储 地 址 和 数据 存储 地 址 指 癌 同 一 个 存储 如 的 不 同 物理 位 置 ， 因 此 程序 指令 和 数据 的 冤 度 相 
同 。 而 哈佛 结构 将 程序 指令 和 数据 分 开 存 储 ， 指 令 和 数据 可 以 有 不 同 的 数据 宽度 。 此 外 ， 哈 佛 结构 还 采用 


了 独立 的 程序 总 线 和 数据 总 线 ， 分 别 作为 CPU 与 每 个 存储 堪 之 间 的 专用 通信 路 径 ， 具 有 较 高 的 执行 效率 。 
图 2.2 描 述 了 冯 : 话 依 曼 结构 和 哈佛 结构 的 区 别 。 


POLHAMEEEIL 
\ PEST’ UT 










程序 存储 此 数据 存储 器 | 哈佛 结构 


图 2.2” 妈 : 访 依 曼 结构 与 哈佛 结构 


主 多 已 厂 及 用 的 是 如 图 2.3 所 示 的 改进 的 哈佛 架构 ， 它 其 有 独立 的 地 址 足 线 和 数据 总 线 ， 两 条 忆 线 由 
程序 存储 如 和 数据 存储 问 分 时 共用 。 因 此 ， 改 进 的 哈佛 结构 针对 程序 和 数据 ， 其 实 没 有 独立 的 电线 ， 而 是 
使 用 公用 数据 总 线 来 完成 程序 存储 柑 块 或 数据 存储 柑 块 与 CPU 之 间 的 数据 传输 ， 公 用 的 地 址 忌 线 来 寻 址 程 
序 和 数据 。 


处 理 器 





图 2.3 ”改进 的 哈佛 结构 


从 指令 集 的 角 大 来 讲 ， 中 央 人 处理 问 也 可 以 分 为 两 尖 ， 即 RISC (精简 指令 集 计 算 机 〉 和 CISC CER 
令 集 计算 机 ) 。CSIC 强 调 增强 指令 的 能 力 、 减 少 目标 代 码 的 数量 ， 但 是 指令 复 洒 ， 指 令 周 期 长 ， 而 RISC 
强调 尽量 减少 指令 集 、 指 令 单 周期 执行 ， 但 是 目标 代 但 会 更 大 。ARM、MIPS、PowerPC 等 CPU 和 内核 都 采 
用 了 RISC 指 令 集 。 目 前 ，RISC 和 CSIC 两 者 的 融合 非常 明显 。 


2.1.2 Ursa 


数字 信和 号 处 理 规 (DSP) EANES EIER. Teer Al ASE UAT TE. "ELE BS RTT 
Wiko DSPIJ3eiAjH T ACE Pe A Se, HRE TER BUI. FFT 快速 传 里 叶 变 换 ) . RH 
天 上 矩阵 运算 等 算法 中 的 大 量 重 复 乘 法 。 


DSP 分 为 两 类 ， 一 类 是 定点 DSP， 另 一 类 是 浮 点 DSP。 浮 点 DSP 的 浮 点 运算 用 硬件 来 实现 ， 可 以 在 单 
周期 内 完成 ， 因 而 其 浮 点 运算 处 理 速 度 高 于 定点 DSP。 而 定点 DSP 只 能 用 定点 运算 模拟 浮 点 运算 。 


feas (TD . ERMA H] ADD 是 全 球 DSP 的 两 大 主要 厂 丙 。 


TI 的 TMS320 TM DSP 平 台 包 含 了 功能 个 同 的 多 个 系列 ， 如 2000 系 列 、3000 系 列 、4000 系 列 、5000 系 
列 、6000 系 列 ， 工 程 师 也 习惯 称 其 为 2x、3x、4x、5x、6x。2010 年 5 月 ，TI 己 经 宣布 为 其 C64x 系 列 数 字 信 
号 处 理 器 与 多 核 片 上 系统 提供 Linux 内 核 文 持 ， 以 充分 满足 通信 与 关键 任务 基础 设施 、 医 疗 诊断 以 及 局 性 
能 汕 量 测试 等 应 用 需求 。TI 也 推出 了 软件 可 编程 多 核 ARM+DSP SoC， 即 KeyStone 多 核 ARM+DSP 处 理 需 ， 
以 满足 医疗 成 像 应 用 、 任 务 关 键 应 用 、 测 试 和 自动 化 应 用 的 需求 。 


ADI 主 要 有 16 位 定点 的 21xx 系 列 、32 位 浮 点 的 SHARC 系 列 、 从 SHARC 系 列 发 展 而 来 的 TigerSHARC 系 
列 ， 以 及 局 性 能 16 位 DSP 信 和 号 处 理 能 力 与 通用 和 做 控制 天 方便 性 相 络 合 的 blackfin 系 列 等 。ADI 的 blackfin 不 
仿 MMU， 完 整 文 持 Linux， 是 没有 有 MMU 情况 下 Linux 的 典型 宁 例 ， 其 官方 网 站 为 http://blackfin.uclinux.org， 
目前 blackftin 的 Linux 开 发 保持 了 与 Linux mainline 的 同步 。 


通用 处 理 右 和 数字 信号 处 理 占 也 有 相互 融合 以 取长补短 的 趋势 ， 如 数字 信号 控制 血 (DSC 
MCU+DSP，ADI 的 blackfin 系 列 就 属于 DSC。 目 前 ， 蕊 请 厂 商 也 推出 了 许多 ARM+DSP 的 双核 以 及 多 核 处 
Pia. WTA OMAP 4 平台 就 包括 4 个 主要 处 理 引 敬 : ARM Cortex-A9MPCore、PowerVR SGX 
540GPU (Graphic Processing Unit) 、C64x DSP#IISP (Image Signal Processor) 。 


除了 上 面 讲述 的 通用 微 控制 器 和 数字 信号 处 理 器 外 ， 还 有 一 些 针 对 特定 领域 而 设计 的 专用 处 理 器 
(ASP)， 它 们 都 是 针对 一 些 特定 应 用 而 设计 的 ， 如 用 于 HDTV、ADSL、Cable Modem 等 的 专用 处 理 器 。 


网 络 处 理 卓 是 一 种 可 编程 带 件 ， 它 应 用 于 电信 和 领域 的 各 种 任务 ， 如 包 处 理 、 协 议 分 析 、 路 由 僵 找 、 声 
首 / 数 据 的 入 聚 、 防 火 墙 、QoS 和 等。 网 络 处 理 问 帮 件 内 部 退 单 由 奢 干 个 做 公 处 理 旧 和 厂 干 价 件 协 处 理 右 组 
成 ， 多 个 做 人 处 理 紫 在 网 络 处 理 右 内 部 并 行 处 理 ， 通 过 预 完 编制 的 微 公 来 控制 处 理 流程 。 而 对 于 一 些 复 灯 
的 标准 操作 《如 内 存 操作 、 路 由 表 碍 找 算 法 、QoS 的 拥 宅 控制 算法 、 流 量 调度 算法 等 ) ， 则 采用 便 件 协 处 
理 器 来 进一步 提高 处 理性 能 ， 从 而 实现 了 业务 灵活 性 和 高 性 能 的 有 机 结合 。 


对 于 东 些 应 用 场合 ， 使 用 ASIC (专用 集成 电路 ) 往往 征 低 成 本 且 融 性 能 的 方案 。ASIC 专 门 针 对 特定 


应 用 而 说 计 ， 不 有 具备 也 不 需要 灵活 的 编程 能 力 。 使 用 ASIC 完 成 同样 的 功能 往往 比特 接 使 用 CPU 资 
CPLD (复杂 可 编程 逻辑 器 件 ) /FPGA (现场 可 编程 门 阵列 〉 来 得 更 廉价 且 高 效 。 


微 控 制 器 (MCU， 
又 称 单片机 ) 
通用 处 理 器 
(GPP) 
dut AFH BE CMPU ) 融合 ， 数 字 信 和 号 
定点 DSP 控制 器 (DSC) 
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图 2.4 ”处理 器 分 类 
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发 挥 自 己 的 长 处 。 如 在 一 款 智能 手机 中 ， 可 使 用 MCU 处 理 图 形 用 户 界 面 和 用 户 的 按键 输入 并 运行 多 任务 


操作 系统 ， 使 用 DSP 进 行 首 视频 编 解 码 ， 而 在 射频 方面 则 灯 用 ASIC。 


综合 2.1 方 的 内 容 ， 可 得 出 如 图 2.4 所 示 的 处 理 硕 分 类 。 


2.2 Fie aS 


存储 器 主要 可 分 类 为 只 读 储存 器 (ROM) 、 闪 存 (Flash) 、 随 机 存 取 存储 器 CRAM) 、 光 / 磁 介 质 储 


ROM 还 可 再 细 分 为 不 可 编程 ROM、 可 编程 ROM (PROM) 、 可 擦 除 可 编程 ROM (EPROM) 和 电 可 
察 除 可 编程 ROM (E2PROM) ，E2PROM 完 全 可 以 用 软件 来 擦 写 ， 己 经 非常 方便 了 。 


NOR 〈 或 非 ) 和 NAND (与 非 ) 是 市 场 上 两 种 主要 的 Flash 闪 存 技术 。Intel 于 1988 年 首先 开发 出 NOR 
Flash 技 术 ， 彻 底 改 变 了 原先 由 EPROM 和 EEPROM 一 统 天 下 的 局 面 。 紧 接着 ，1989 年 ， 东 芝 公 司 发 表 了 
NAND Flash 结 构 ， 每 位 的 成 本 被 大 大 降低 。 

NOR Flash 和 CPU 的 接口 属于 典型 的 类 SRAM 接 口 〈 如 图 2.$ 所 示 ) ， 不 需要 增加 额外 的 控制 电路 。 
NOR Flash 的 特点 是 可 已 片 内 执行 CeXecuteIn Place, XIP) ， 程 序 可 以 直接 在 NOR 内 运行 。 而 NAND 
Flash 和 和 CPU 的 接口 必须 由 相应 的 控制 电路 进行 转换 ， 当 然 也 可 以 通过 地 址 线 或 GPIO 产 生 NAND Flash 接 口 
PE 5.o NAND Flash 以 块 方式 进行 访问 ， 不 支持 心 厂 内 执行 。 

数据 总 线 


SRAM, NOR Flash 
以 及 其 他 提供 SRAM 


接口 的 LO 芯片 等 


中 断 〈 仅 对 UO 芯片 ) 





图 2.$ ”典型 的 类 SRAM 接 口 


公共 内 存 接 口 〈Common Flash Interface, CFI) 是 一 个 从 NOR Flash 妖 件 中 读 取 数据 的 公开 、 标 准 接 
口 。 生 可 以 使 系统 软件 得 询 已 安 痛 的 Flash 带 件 的 各 种 参数 ， 包 括 玲 件 阵列 结构 参数 、 电 气 和 时 间 参 数 以 
及 耸 件 文 持 的 功能 等 。 如 果 心 万 不 文 持 CEI， 残 需 使 用 JEDEC (Joint Electron Device Engineering Council, 
电子 电器 设备 联合 会 ) 了 。JEDEC 规 范 的 NOR 则 无 法 直接 通过 命令 来 恋 出 容量 等 信息 ， 需 要 读 出 制造 丙 


ID 和 设备 ID， 以 确定 Flash 的 大 小 。 
ENOR Flash 的 关 SRAM 接 口 不 同 ， 一 个 NAND Flash 的 接口 主要 包含 如 下 信号。 
TOZ: 地 址 、 指 令 和 数据 通过 这 组 总 线 传输 ， 一 般 为 8 位 或 16 位 。 


ots} Ja) (Chip Enable, CE#) : WRIA RIIEICE(R S> NANDE MARENE, ARME 


控制 信号 做 出 啊 应 。 


“EA RE (Write Enable, WEZ) : WE# 人 负 贡 将 数据 、 地 址 或 指令 写 入 NAND 之 中 。 
: 读 使 能 (Read Enable, RE#) : RE# 人 允许 数据 输出 。 


:指令 锁 存 使 能 (Command Latch Enable, CLE) : 当 CLE 为 高 电 平时 ， 在 WE# 信 号 的 上 升 治 ， 指 邻 将 


被 锁 存 到 NAND 指 令 寄 存 器 中 。 


:地 址 锁 存 使 能 (Address Latch Enable, ALE) : 当 ALE 为 高 电 平 时 ， 在 WE# 信 号 的 上 升 治 ， 地 址 将 被 
锁 存 到 NAND 地 址 寄存 器 中 。 


WANE CReady/Busy, R/B#) : WRNANDASIFIÈE, RBHS TR RIRE F. ala Sed OT ES; 
需要 采用 上 拉 电 阻 。 


NAND Flash 较 NOR Flash 容 量 大 ， 价 格 低 ， NAND Flash! FAH KERER KL E1007J3 4X, NOR 
的 探 写 次 数 是 10 万 次 : NAND Flash 的 探 除 、 编 程 速度 远 超 过 NOR Flash. 


由 于 Flash 固 有 有 的 电 硕 特性 ， 在 该 与 数据 过 程 中 ， 倡 然 会 产生 1 位 或 儿 位 数据 铺 误 ， 即 位 反 转 ，NAND 
Flash 有 太 生 位 反 转 的 概率 要 远大 于 NOR Flash。 位 反 转 无 法 避免 ， 因 此 ， 使 用 NAND Flash 的 同时 ， 应 采用 钳 
误 探 测 /错误 更 正 CEDC/ECCO 算法 。 


Flash 的 编程 原理 都 是 只 能 将 1 写 为 0， 而 不 能 将 0 与 为 1。 因 此 在 Flash 纺 程 乙 前 ， 必 顷 将 对 应 的 其 撕 
际 ， 而 氛 除 的 过 程 束 是 把 所 有 位 部 写 为 1 的 过 程 ， 块 内 的 所 有 子 市 变 为 0xXFF。 为 外 ，Flash 还 行 在 一 个 负载 
均衡 的 问题 ， 不 能 老 是 在 同一 其 位 置 进行 探 除 和 与 的 动作 ， 这 样 容 多 导致 坏 块 。 


人 得 一 捉 的 是 ， 目 前 NOR Flash 可 以 使 用 SPI 接 口 进 行 访问 以 节省 引 脚 。 相 对 于 传统 的 并 行 NOR Flash 
而 言 ，SPI NOR Flash 只 需要 6 个 引 脚 就 能 够 实现 单 WO、 双 VO 和 4 个 LO 口 的 接口 通信 ， 有 的 SPI NOR Flash 


还 文 持 DDR 模 式 ， 能 进一步 提高 访问 速 度 到 80MB/S。 


IDE (Integrated Drive Electronics) 接口 可 连接 价 检 控制 莫 或 光驱 ，IDE 接 口 的 信号 与 SRAM 类 似 。 人 人 
们 通常 也 把 IDE 接 口 称 为 AIA (Advanced Technology Attachment) 接口 ， 不 过 ， 从 技术 角度 而 言 ， 这 并 不 准 
确 。 其 实 ，AITA 接 口 发 展 至 今 ， 已 经 经 历 了 AIA-1 (IDE) 、ATA-2 (Enhanced IDE/Fast ATA, EIDE) 、 
ATA-3 CFastATA-2) 、Ultra ATA. Ultra ATA/33. Ultra ATA/66. Ultra ATA/100 及 Serial ATA (SATA) 的 发 


很 多 SoC 集 成 了 一 个 eFuse 电 编程 熔 丝 作为 OTP (One-Time Programmable, — RIER Fate) TTEA o 
eFuse 可 以 通过 计算 机 对 尽 户 内 部 的 参数 和 功能 进行 配置 ， 这 一 般 是 在 必 片 出 广 的 时 候 已 经 设置 好 了 。 


UA EPIRI) FROM, Flash #l T Jot 4f fit ss bm AE a A LEER NVM) 的 范畴 ， 岳 电 时 信息 不 
会 丢失 ， 而 RAM 则 与 此 相反 。 


RAM 也 可 再 分 为 静态 RAM (SRAM) 和 动态 RAM (DRAM) 。DRAM 以 电荷 形式 进行 存储 ， 数 据 存 
储 在 电容 器 中 。 由 于 电容 堪 会 因 漏电 而 出 现 电 和 荷 丢 失 ， 所 以 DRAM 器 件 需 要 定期 刷新 。SRAM 有 是 静态 的 ， 
只 要 供电 它 就 会 保持 一 个 值 ，SRAM 没 有 刷新 周期 。 每 个 SRAM 存 储 单元 由 6 个 晶体管 组 成 ， 而 DRAM 存 
储 单 元 由 1 个 品 体 管 和 1 个 电容 器 组 成 。 


通常 所 说 的 SDRAM、DDR SDRAM 缘 属于 DRAM 的 范畴 ， 它 们 采用 与 CPU 外 存 控制 器 同步 的 时 钟 工 
作 “〔〈 注 意 ， 不 是 与 CPU 的 工作 频率 一 致 ) 。 与 SDRAM 相 比 ，DDR SDRAM 同 时 利用 了 时 钟 脉 冲 的 上 升 沿 
和 下 降 沿 传输 数据 ， 因 此 在 时 钟 频率 不 变 的 情况 下 ， 数 据 传输 频 京 加 倍 。 此 外 ， 还 存在 使 用 
RSL (Rambus Signaling Level，Rambus 及 信 电 平 ) 技术 的 RDRAM (Rambus DRAM) 和 Direct RDRAM. 


针对 许多 特定 场合 的 应 用 ， 艇 入 式 系 统 中 往往 还 使 用 了 一 些 特定 类 型 的 RAM。 
1.DPRAM: X ïm ORAM 
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潜 获 知 ， 并 读 取 其 写 入 的 数据 。 由 于 双 CPU 同 时 访问 DPRAM 时 的 仲裁 逻辑 电路 集成 在 DPRAM 内 部 ， 所 以 
m E BETTE LEER ETT T] FE EA JS ER EC fn] HR. 





图 2.6” 双 端口 RAM 


DPRAM 的 优点 古 退 信 速 度 快 、 实 时 性 强 、 接 口 人 简 早 ， 而 且 两 边 处 理 右 部 可 主动 进行 数据 传输 。 除 了 
双 珊 口 RAM 以 外 ， 目 前 IDT 等 心 厂 厂商 还 推出 了 多 闹 口 RAM， 可 以 供 3 个 以 上 的 处 理 带 互 退 数 据 。 


2.CAM: 内 容 寻 址 RAM 


CAM 坪 以 内 容 进 行 寻 址 的 存储 间 ， 是 一 种 特殊 的 存储 阵列 RAM， 它 的 主要 工作 机 制 残 是 同时 将 一 个 
得 入 数据 项 与 存储 在 CAM 中 的 所 有 数据 项 目 动 进行 比较 ， 判 询 访 输入 数据 项 与 CAM 中 存储 的 数据 项 古 合 
相 匹 配 ， 并 输出 该 数据 项 对 应 的 匹配 信息 。 


如 图 2.7 所 示 ， 在 CAM 中 ， 输 入 的 是 所 要 但 询 的 数据 ， 输 出 的 是 数据 地 址 和 罗 配 标志 。 石 还 配 〈 即 搜 
寻 到 数据 ) ， 则 输出 数据 地 址 。CAM 用 于 数据 检索 的 优势 是 软件 无 法 比拟 的 ， 它 可 以 极 大 地 提高 系统 性 
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图 2.7 CAM 的 输入 与 输出 
3.FIFO: 先进 先 出 队列 


FIFO 和 存储 占 的 特点 是 先进 完 出 ， 进 出 有 序 ，FIFO 多 用 于 数据 缓冲 。FIFO 和 DPRAM 类 似 ， 上 有 具有 两 个 访 
问 端口 ， 但 是 FIFO 两 边 的 端口 并 不 对 等 ， 某 一 时 刻 只 能 设置 为 一 边 作 为 输入 ， 一 边 作为 输出 。 


如 果 FIFO 的 区 域 共有 n 个 字 节 ， 我 们 只 能 通过 循环 n 次 读 取 同 一 个 地 址 才能 将 该 片区 域 读 出 ， 不 能 指 
定 偏 移 地 址 。 对 于 有 n 个 数据 的 FIFO， 当 循环 读 取 m 次 之 后 ， 下 一 次 读 时 会 自动 读 取 到 第 m+1 个 数据 ， 这 
是 由 FIFO 本 身 的 特性 决定 的 。 


忌 结 2.2 节 的 内 容 ， 可 得 出 如 图 2.8 所 示 的 存储 器 分 类 。 
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图 2.8 FERIT 


23 接口 与 总 线 
23.] 上 串口 


RS-232、RS-422 与 RS-485 孝 是 串 行 数据 接口 标准 ， 最 初 都 是 由 电子 工业 协会 (EILA) 制订 并 发 布 的 。 


RS-232 在 1962 年 及 布 ， 命 名 为 EIA-232-E。 之 后 用 布 的 RS-422 定 义 了 一 种 平衡 通信 接口 ， 它 是 一 种 单 
机 发 送 、 多 机 接收 的 单 向 、 平 衡 传输 规范 ， 被 命名 为 TIA/EIA-422-A 标 准 。RS-422 改 进 了 RS-232 通 信 上 距离 
得、 速率 低 的 缺点 。 为 进一步 扩展 应 用 范围 ，EIA 又 于 1983 年 在 RS-422 的 基础 上 制定 了 RS-485 标 准 ， 增 加 
了 多 点 、 双 同 通 信 能 力 ， 即 允许 多 个 发 送 器 连接 到 同一 条 总 线 上 ， 同 时 增加 了 发 送 器 的 驱动 能 力 和 证 突 保 
护 特性 ， 并 扩展 了 总 线 共 模范 围 ， 被 命名 为 TIA/EIA-485-A 标 准 。 


1969 年 及 布 的 RS-232 修 改 厂 RS-232C 是 人 藤 入 式 系统 中 应 用 最 广泛 的 串 行 接口 ， 它 为 连接 DTE〈 数 据 终 
端 设 备 ) 与 DCE (数据 通信 设备 ) 而 制定 。RS-232C 标 准 接口 有 25 条 线 (4 条 数据 线 、11 条 控制 线 、3 条 定 
时 线 、7 条 备用 和 未 定义 线 ) ， 和 茹 用 的 只 有 9 根 ， 它 们 是 RTS/CTS 请 求 友 送 /清除 发 送 流 控制 ) 

RxD/TxD CE) 、DSR/DTR (BEA A BE ATP Hl). DCD CES, MK 
RLSD， 即 接收 线 信号 检 出 ) ~ Ringing-RI (eis) . SG Ca SH fum. RTS/CTS. RxD/TxD, 
DSR/VDTR 等 信号 的 定义 如 下 。 


‘RTS: 用 来 表示 DTE 请 求 DCE 友 送 数据 ， 当 终端 要 发 送 数据 时 ， 使 该 信号 有 效 。 
CTS: 用 来 表示 DCE 准 备 好 接收 DTE 发 来 的 数据 ， 是 对 RTS 的 响应 信和 号 

‘RxD: DTE 通 过 RxD 接 收 从 DCE 友 来 的 串 行 数据 。 

‘TxD: DTE 通 过 TxD 将 串 行 数据 发 送 到 DCE。 

‘DSR: AR CONTUSO 表明 DCE 可 以 使 用 。 

DTR: AR CONTUSO 表明 DTE 可 以 使 用 。 


‘DCD: 当 本 地 DCE 设 备 收 到 对 方 DCE 设 备 送 来 的 载波 信号 时 ， 使 DCD 有 效 ， 通 知 DTE 稚 备 接收 ， 并 
日 由 DCE 将 接收 到 的 载波 信号 解 调 为 数字 信号 ， 经 RxD 线 送 给 DTE。 


Ringing-RI: 当 调 制 解 调 喜 收 到 交换 人 台 送 来 的 振 铃 呼叫 信号 时 ， 使 该 信号 有 效 (ON 状态 ) ， 通 知 终 
Hy, CHE. 


最 简单 的 RS-232C 串 口 只 需要 连接 RxD、TxD、SG 这 3 个 信和 上 号， 并 使 用 XON/XOFF 软 件 流 控 。 


组 成 一 个 RS-232C 串 口 的 硬件 原理 如 图 2.9 所 示 ， 从 CPU 到 连接 部 依 次 为 CPU、UART (通用 异步 接收 
器 发 送 器 ， 作 用 是 完成 并 / 串 转 换 ) 、CMOS/TTL 电 平 与 RS-232C 电 平 转换 、DB9/DB25 或 自 定 义 连接 器 。 


数据 总 线 












RS-232C 信 号 | o 4 RS-232C42: 5. 
地 址 总 线 fii J C MOS/TTL fii J 
CPU UART j 
, SA HE Hih. — 
CMOS/TIL | 电 平 转换 | RS-232C 电 平 
控制 总 线 t 





图 2.9 RS-232C 串 口 电路 原理 


232 FC 


FC《〈 内 置 集 成 电路 ) 总 线 是 由 Philips 公 司 开 发 的 两 线 式 串 行 总 线 ， 产 生 于 20 世 纪 80 年 代 ， 用 于 连接 
微 控 制 器 及 其 外 围 设备 。FC 总 线 简 单 而 有 效 ， 占 用 的 PCB 〈 印 制 电路 板 ) 空间 很 小 ， 芯 片 引 脚 数量 少 ， 
设计 成 本 低 。IC 总 线 支 持 多 主 控 (Multi-Mastering) 模式 ， 任 何 能 够 进行 发 送 和 接收 的 设备 都 可 以 成 为 主 
设备 。 主 控 能 够 控制 数据 的 传输 和 时 钟 频率 ， 在 任意 时 刻 只 能 有 一 个 主 控 。 


组 成 PC 总 线 的 两 个 信号 为 数据 线 SDA 和 时 钟 SCL。 为 了 避免 总 线 信号 的 混乱 ， 要 求 各 设备 连接 到 总 
线 的 输出 端 必 须 是 开 漏 输出 或 集 电极 开路 输出 的 结构 。 总 线 空闲 时 ， 上 拉 电 阻 使 SDA 和 SCL 线 都 保持 高 电 
平 。 根 据 开 漏 输出 或 集 电极 开 路 输出 信号 的 “ 线 与 逻辑，PC 总 线 上 任意 器 件 输出 低 电 平 都 会 使 相应 总 线 
上 的 信号 线 变 低 。 


ss «£X 532 R3 HJ ze PS BS EA E- H5) 8g E EL AE AY ASE Se. AA i 
开 漏 “ 对 于 CMOS 器 件 ) 输出 或 集 电极 开路 (对 于 TTL 器 件 〉 输 出 时 才 满 足 此 条 件 。 工 程 师 一 般 以 “OC 
1 简称 开 淹 或 集 电 极 开路 。 


IC 设备 上 的 串 行 数据 线 SDA 接 口 电路 是 双向 的 ， 输 出 电路 用 于 向 总 线 上 发 送 数 据 ， 输 入 电路 用 于 接 
收 忌 线 上 的 数据 。 同 样 地 ， 串 行 时 钟 线 SCL 也 十 双 同 的 ， 作 为 控制 鼠 线 数据 传 运 的 主机 要 通过 SCL 和 输出 电 
路 友 太 时钟 信 写 ， 并 检 机 总 线 上 SCL 上 的 电 平 以 决定 什么 时 候 友 下 一 个 时 钟 脉冲 电 平 ， 作 为 接收 主机 命令 
的 从 设备 裔 控 忆 线 上 SCL 的 信号 友 壕 或 接收 SDA 上 的 信和 写 ， 它 也 可 以 癌 SCL 线 友 出 低 电 剃 信号 以 延长 忌 线 
I PRESA BI. 


当 SCL 稳 定 在 高 电 平 时 ，SDA 由 高 到 低 的 变化 将 产生 一 个 开始 位 ， 而 由 低 到 高 的 变化 则 产生 一 个 停止 
位 ， 如 图 2.10 所 示 。 


开始 位 和 停止 位 都 由 FC 主 设备 产生 。 在 选择 从 设备 时 ， 如 果 从 设备 采用 7 位 地 址 ， 则 主 设 备 在 发 起 传 
输 过 程 前 ， 需 先 发 送 1 字 节 的 地 址 信息 ， 前 7 位 为 设备 地 址 ， 最 后 1 位 为 读 写 标 志 。 之 后 ， 每 次 传输 的 数据 
也 是 1 字 节 ， 从 MSB 开 始 传输 。 每 个 字 节 传 完 后 ， 在 SCL 的 第 9 个 上 升 沿 到 来 之 前 ， 接 收 方 应 该 发 出 1 个 
ACK 位 。SCL 上 的 时 钟 脉冲 由 fC 主 控 方 发 出 ， 在 第 8 个 时 钟 周期 之 后 ， 主 控 方 应 该 释放 SDA，I?*C 总 线 的 
时 序 如 图 2.11 所 示 。 


SDA SDA 


开始 位 停止 位 


图 2.10 IC 总 线 的 开始 位 和 停止 位 


| 
| | 
| | MSB 来 自 接收 方 的 ACK 来 日 接收 方 的 ACK | 

| 
| | 

| TY 
SCL! Ik £1 fa 7X [8X [o Lh ga Vi pet 

-e o ACK me 


字 节 传输 完成 时钟 线 保持 低 电 平 


图 2.11 PC 总 线 的 时 序 


2.3.3 SPI 


SPI (Serial Peripheral Interface, ETAO) 总 线 系 统 是 一 种 同步 串 行 外 设 接口 ， 它 可 以 使 CPU 与 
各 种 外 围 设备 以 串 行 方式 进行 通信 以 交换 人 信息。 一般 主 控 SoC 作 为 SPI 的 “ 主 ”， 而 外 设 作为 SPI 的 “从 ”。 


SPI 接 口 一 般 使 用 4 条 线 : 串 行 时 钟 线 CSCLKO 、 主 机 输入 /从 机 输出 数据 线 MISO、 主 机 输出 /从 机 和 输 
入 数据 线 MOSI 和 低 电 平 有 效 的 从 机 选 择 线 SS 〈 在 不 同 的 文献 里 ， 也 稍 称 为 nCS、CS、CSB、CSN、 
nSS、STE、SYNC 等 ) 。 图 2.12 演 示 了 1 个 主机 连接 3 个 SPI 外 设 的 硬件 连接 图 。 


SCLK 
MOSI 
MISO 
SS 


SCLK 
MOSI 
MISO 
SS 








图 2.12 ”SPI 主 、 从 硬件 连接 图 


如 图 2.13 所 示 ， 在 SPI 总 线 的 传 翘 中 ，SS 信 吕 征 低 电 平 有 效 的 ， 当 我 们 要 与 未 外 设 通 信 的 时 候 ， 需 要 
将 赵 外 设 上 的 SS 线 症 低 。 此 外 ， 特 列 要 注意 SPI 从 设备 文 持 的 SPI 总 线 最 高 时 钟 频 率 《〈 雇 定 了 SCK 的 频率 ) 
以 及 外 设 的 CPHA、CPOL 模 式 ， 这 决定 了 数据 与 时 钟 之 间 的 偏 黎 、 有 采样 的 时 刻 以 及 触 友 的 边沿 是 上 升 沿 
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图 2.13 ”SPI 总 线 的 时 序 


SPI 模 块 为 了 和 外 设 进行 数据 交换 ， 根 据 外 设 工作 要 求 ， 其 输出 串 行 同步 时 钟 极 性 (CPOL〉 和 相位 
(CPHAO 可 以 进行 配置 。 如 采 CPOL=0， 串 行 同 步 时 钟 的 空 末 状态 为 低 电 平 ， 如 采 CPOL=1， 串 行 同 步 时 
钟 的 空闲 状态 为 高 电 平 。 如 果 CPHA=0， 在 串 行 同步 时 钟 的 第 一 个 跳 变 沿 (上 升 或 下 降 ) 数据 被 采样 ， 如 
果 CPHA=1， 在 串 行 同步 时 钟 的 第 二 个 跳 变 沿 (上 升 或 下 降 ) 数据 被 采样 。 


2.3.4 USB 


USB 〈 通 用 串 行 总 线 ) 是 Intel、Microsoft 等 上 陪 为 解决 计算 机 外 设 种 类 的 日 蕉 增加 与 有 限 的 主板 插 横 
和 和 端口 之 则 的 巴 盾 而 于 1995 年 提出 的 ， 它 其 有 数据 传输 对 高 、 吻 扩展 、 文 持 即 插 即 用 和 热 搬 拔 的 优点， 
目前 已 得 到 广泛 应 用 。 


USB 1.1 包 含 全 速 和 低速 两 种 模式 ， 低 速 方 式 的 速率 为 1.5Mbit/s， 文 持 一 些 不 前 要 很 大 数据 硅 吐 量 和 
很 高 实时 性 的 设备 ， 如 鼠标 等 。 全 速 模式 为 12Mbits， 可 以 外 接 速 率 更 高 的 外 设 。 在 USB 2.0 中 ， 增 加 了 
一 种 高 速 方式 ， 数 据 传输 率 达 到 480Mbits， 半 双 工 ， 可 以 满足 更 高 速 外 设 的 需要 。 而 USB 3.0《〈 也 被 认为 
z€ Super Speed USB) 的 最 大 传输 市 蜗 高 达 $.0Gbits《〈 即 640MB/S) ， 全 双 工 。 


USB 2.0 总 线 的 机 械 连 接 非 彰 简 单 ， 采 用 4 必 的 屏 表 线 ， 一 对 差分 线 (Dco. D 传送 信号 ， 另 一 对 
(VBUS、 电 产地 ) fEXÉ-5VH] EH. USB3.02x280 iit SAPE. BRVBUS. Hj 5 X 
AR SMT LA ti Ferri. JURE IJ DA 3D-X PIER ZEUSB 2.0 的 线路 ， 新 增 了 SSRX 与 SSTX 专 为 USB 
3.0 所 设 的 线路 。 


在 嵌入 式 系统 中 ， 电 路 板 奋 需要 排 接 USB 设 备 ， 则 需 提 供 USB 主 机 《Host) 控制 器 和 连接 右 ; 各 电路 
板 需 要 作为 USB 设 备 ， 则 需 提 供 USB 设 备 适 配 右 和 连接 器 。 目 前 ， 大 多 数 SoC 集 成 了 USB 主 机 控制 妖 《〈 以 
连接 USB 外 设 ) 和 设备 适配器 《以 将 本 藤 入 式 系统 作为 其 他 计算 机 系统 的 USB 外 设 ， 如 手机 到 当 U 盘 ) 。 
由 USB 主 机 、 设 备 和 Hub 组 成 的 USB 系 统 的 物理 拓扑 结构 如 图 2.14 所 示 。 


AHE Is nuu 
LATEX Tur 





图 2.14 ”USB 的 物理 拓扑 结构 


每 一 个 USB 设 备 会 有 一 个 或 者 多 个 逻辑 连接 点 在 里 面 ， 每 个 连接 点 叫 端点 。USB 提 供 了 多 种 传输 方式 
以 适应 各 种 设备 的 需要 ， 一 个 端点 可 以 选择 如 下 一 种 传输 方式 。 


1 .控制 (Control) 传输 方式 


控制 传输 是 双 回 传输 ， 数 据 量 通 首 较 小 ， 主 要 用 来 进行 租 询 、 配 置 和 给 USB 设 备 发 送 通用 命令 。 所 有 
USB 设 备 必 须 文 持 标准 请 求 CStandard Request) ， 控 制 传输 方式 和 端点 0。 


2. 同 步 CIsochronous) 传输 方式 


司 步 传输 提供 了 确定 的 市 宽 和 间隔 时 间 ， 它 用 于 时 间 要 求 严 格 并 具有 较 强 容错 性 的 这 数 据 传 输 ， 或 者 
用 于 要 求 恒 定数 据 传送 深 的 即时 应 用 。 例 如 进行 语 首 业务 传输 上 时， 使 用 同步 传输 方式 是 很 好 的 选择 。 同 步 
Fe sar th Fe PKA “Streaming Real-time” 传 输 。 


3. 中 断 〈Interrupt) 传输 方式 


中 断 方式 传送 是 单 向 的 ， 对 于 USB 主 机 而 言 ， 只 有 输入 。 中 断 传输 方式 主要 用 于 定时 查询 设备 是 否 有 
中 断 数据 要 传送 ， 该 传输 方式 应 用 在 少量 分 散 的、 不 可 预测 的 数据 传输 场合 ， 键 盘 、 游 戏 杆 和 鼠标 属于 这 


一 类 型 ， 


4. 批 量 (Bulk) 传输 方式 


批量 传输 主要 应 用 在 没有 融 宽 、 间 隔 时 间 了 要 求 的 批量 数据 的 传送 和 接收 中 ， 它 要 求 保 证 传输 。 打 印 机 
和 扫描 仪 属于 这 种 类 型 。 


而 USB 3.0 则 增加 了 一 种 Bulk Streams 传 输 模 式 ，USB 2.0 的 Bulk 模 式 只 支持 1 个 数据 流 ， 而 Bulk 
Streams 传 输 模 式 则 可 以 文 持 多 个 数据 流 ， 每 个 数据 流 被 分 配 一 个 Stream ID (SID) ， 每 个 SID 与 一 个 主机 
缓冲 区 对 应 。 


在 USB 架 构 中 ， 集 线 融 负 贡 检测 设备 的 连接 和 上 断 开 ， 利 用 其 中 断 I 病 点 〈Interrupt IN Endpoint) 来 回 
主机 报告 。 一 旦 获 甘 有 新 设备 连接 上 来 ， 主 机 束 会 友 这 一 系列 请 求 给 设备 所 挂 载 的 集 线 禹 ， 上 于 由 集 线 帮 建 


了 起 一 条 连接 主机 和 设备 之 间 的 通信 通道 。 然 后 主机 以 控制 传输 的 方式 ， 六 点 0 对 设备 发 这 各 种 请 
求 ， 设 备 收 到 主机 发 来 的 请 求 后 回复 相应 的 信息 ， 进 行 枚 举 CEnumerate) 操作 。 因 此 USB 忌 线 具 备 热 插 


拔 的 能 


2.3.5 ”以 太 网 接口 


以 太 网 接口 由 MAC (以 太 网 媒体 接 入 控制 器 ， 和 PHY (物理 接口 收发 器 ) 组 成 。 以 太 网 MAC 由 IEEE 
802.3 以 太 网 标准 定义 ， 实 现 了 数据 链 路 层 。 常 用 的 MAC 支 持 10Mbit/s 或 100Mbit/s 两 种 速率 。 吉 比特 以 大 
网 《也 称 为 干 兆 位 以 太 网 ) 是 快速 以 太 网 的 下 一 代 技 术 ， 将 网 速 提高 到 了 1000Mbits。 于 兆 位 以 太 网 以 
IEEE 802.3z 和 802.3ab 友 布 ， 作 为 IEEE 802.3 标 准 的 人 补 元 。 


MAC 和 和 PHY 之 间 米 用 MH 媒体 独立 接口 ) 连接 ， 它 是 IEEE-802.3 定 义 的 以 太 网 行业 标准 ， 包 括 1 个 
数据 接口 与 MAC 和 PHY 之 间 的 1 个 管理 接口 。 数 据 接口 包括 分 别 用 于 发 送 和 接收 的 两 条 独立 信道 ， 每 条 信 
道 都 有 自己 的 数据 、 时 钟 和 控制 信号 ，MII 数 据 接口 总 共 需 要 16 个 信号 。MII 管 理 接 口 包含 两 个 信号 ， 一 
个 是 时 钟 信号 ， 男 一 个 是 数据 信号 。 通 过 管理 接口 ， 上 层 能 监视 和 控制 PHY。 


一 个 以 太 网 接口 的 硬件 电路 原理 如 图 2.15 所 示 ， 从 CPU 到 最 终 接口 依次 为 CPU、MAC、PHY、 以 太 网 
隐 离 变压器 、RJ45 插 座 。 以 太 网 隔离 变 压 右 是 以 太 网 收发 芒 片 与 连接 器 之 间 的 人 磁性 组 件 ， 在 其 两 者 之 间 
起 着 信号 传输 、 阻 抗 下 配 、 波 形 修复 、 信 号 杂 波 抑制 和 高 电压 隔离 作用 。 











RJ45 


串 行 信号 | px | 串 行 信和 号 
CY 隔离 变压器 KK 一》 AÀ 





图 2.15 ”以 太 网 接口 的 硬件 电路 原理 


许多 处 理 器 内 部 集成 了 MAC 或 同时 集成 了 MAC 和 PHY， 另 有 许多 以 太 网 控制 芯片 也 集成 了 MAC 和 
PHY. 


2.3.6 PCI 和 PCI-E 


PCI (Jb EAB BSE) 是 由 Intel 于 1991 年 推出 的 一 种 局 部 忌 线 ， 作 为 一 种 过 用 的 电线 接口 标准 ， 它 在 
日前 的 计算 机 系统 中 得 到 了 非 第 广泛 应 用 。PCI 忌 线 具 有 如 下 特 反 。 


:数据 总 线 为 32 位 ， 可 扩充 到 64 位 。 


可 进行 突 发 (Burst) 模式 传输 。 突 发 方式 传输 是 指 取得 总 线 控制 权 后 连续 进行 多 个 数据 的 传输 。 突 
发 传输 时 ， 只 需要 给 出 目的 地 的 首 地 址 ， 访 问 第 1 个 数据 后 ， 第 2~n 个 数据 会 在 首 地 址 的 基础 上 按 一 定 规 
则 自动 寻 址 和 传输 。 与 突 发 方式 对 应 的 是 单 周 期 方式 ， 它 在 1 个 总 线 周期 只 传送 1 个 数据 。 


-总线 操作 与 处 理 融 一 存储 货 了 于 系统 操作 并 行 。 

:采用 中 央 集 中 却 总 线 仲裁 。 

: 文 持 全 目 动 配置 、 资 源 分 配 ，PCI 卡 内 有 设备 信息 寄存 蓝 组 为 系统 提供 卡 的 信息 ， 可 实现 即 插 即 用 。 
PCL Ae LIE AIT Fb Has, HA PEM 

PCI 设备 可 以 完全 作为 主 控 设 备 控制 忌 线 。 


图 2.16 给 出 了 一 个 典型 的 基于 PCI 总 线 的 计算 机 系统 逻辑 示意 图 ， 系 统 的 各 个 部 分 通过 PCI 总 线 和 PCTI- 
PCI 桥 连接 在 一 起 。CPU 和 RAM 通 过 PCI 桥 连接 到 PCI 总 线 0( 即 主 PCI 总 线 ) ， 而 具有 PCI 接 口 的 显卡 则 可 
以 直接 连接 到 主 PCI 总 线 上 。PCI-PCI 桥 是 一 个 特殊 的 PCI 设 备 ， 它 负 贡 将 PCI 总 线 0 和 PCI 总 线 1( 即 从 PCI 
主线 ) 连接 在 一 起 ， 通 各 PCI 总 线 1 称 为 PCI-PCI 桥 的 下 游 (Downstream) ， 而 PCI 总 线 0 则 称 为 PCI-PCI 桥 
的 上 游 (Upstream) 。 为 了 兼容 上 日 的 ISA 总 线 标准 ，PCI 总 线 还 可 以 通过 PCI-ISA 桥 来 连接 ISA 总 线 ， 从 而 支 
持 以 前 的 ISA 设 备 。 


PCI 总 线 0 






PCI-PCI 桥 
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图 2.16 ”基于 PCI 总 线 的 计算 机 系统 逻辑 示意 图 


当 PCI 卡 刚 加 电 时 ， 卡 上 配置 空间 即 可 以 被 访问 。PCI 配 置 空间 保存 着 该 卡 工作 时 所 需 的 所 有 信息 ， 
如 三家 、 卡 功能 、 资 源 要 求 、 处 理 能 力 、 功 能 模块 数量 、 主 控 卡 能 力 等 。 通 过 对 这 个 空间 信息 的 谈 取 与 编 
程 ， 可 完成 对 PCI 卡 的 配置 。 如 图 2.17 所 示 ，PCI 配 置 空间 共 为 256 字 节 ， 主 要 包括 如 下 信息 。 


:制造 商标 识 CVendor ID) : 由 PCI 组 织 分 配给 厂家 。 


:设备 标识 (Device ID) : 按 产 品 分 类 给 本 卡 的 编号 。 


:分 类 人 码 (Class Code) : 本 卡 功 能 的 分 类 人 码 ， 如 图 卡 、 显 示 卡 、 解 压 卡 等 。 


.申请 存储 器 空间 ，PCI 卡 内 有 存储 器 或 以 存储 器 编 址 的 寄存 器 和 IO 空间 ， 为 使 驱动 程序 和 应 用 程序 
能 访问 它们 ， 需 申请 CPU 的 一 段 存储 区 域 以 进行 定位 。 配 置 空间 的 基地 址 寄存 器 用 于 此 目的 。 


:申请 IO 空间 : 配置 空间 中 的 基地 址 寄存 器 用 来 进行 系统 IO 空间 的 申请 。 


:中断 资 源 申 请 : 配置 空间 中 的 中 断 引 脚 和 中 断 线 用 来 同系 统 申 请 中 断 资源 。 仿 移 3Dh 处 为 中 断 引 朋 
寄存 郁 ， 其 信 表 明 PCI 设 备 使 用 了 哪 一 个 中 断 引 脚 ， 对 应 关系 大 
INTD#。 
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图 2.17 ”PCI 配置 空间 


PCI-E (PCI Express) 是 Intel 公 司 提出 的 新 一 代 的 总 线 接口 ，PCI Express 末 用 了 目前 业内 洲 行 的 点 对 
呈 串 行 连接 ， 比 起 PCI 以 及 更 早 的 计算 机 忌 线 的 共 圣 并 行 染 构 ， 每 个 设备 部 有 目 己 的 专用 连接 ， 采 用 上 串 行 
方式 传 输 数 据 ， 不 需要 辐 整 个 总 线 请 求 市 宽 ， 并 可 以 把 数据 传输 率 提 高 到 一 个 很 局 的 频率 ， 达 到 PCI 所 不 
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PCI Express E PT ZR]. ERA HEPC RMA, X REPCIC RU VI PRA SIS. thse v 
无 须 推倒 目前 的 驱动 程序 、 操 作 系 统 ， 束 可 以 支持 PCI Expressi 4 - 


2.3.7 SD 和 SDIO 


SD (Secure Digital) 是 一 种 天 于 Flash 和 存储 卡 的 标准 ， 也 束 是 一 艇 沼 见 的 SD 记忆 卡 ， 在 设计 上 与 
MMC (Multi-Media Card) 保持 了 兼容 。SDHC (SD High Capacity) 是 大 容量 SD 卡 ， 支 持 的 最 大 容量 关 
32GB。2009 年 发 布 的 SDXC (SD eXtended Capacity〉 则 支持 最 大 2TB 大 小 的 容量 。 


SDIO (Secure Digital Input and Output Card， 安 全 数字 输入 输出 卡 〉 在 SD 标准 的 基础 上 ， 定 义 了 除 存 
储 卡 以 外 的 外 设 接 口 。SDIO 主 要 有 两 类 应 用 一 一 可 移动 和 不 可 移动 。 不 可 移动 设备 遵循 相同 的 电气 标 
准 ， 但 不 要 求 符 合 物理 标准 。 现 在 已 经 有 非常 多 的 手机 或 者 手持 装置 都 支持 SDIO 的 功能 ， 以 连接 WiFi、 
蓝牙 、GPS 等 模块 。 





一 般 情 况 下 ， 芯 片 内 部 集成 的 SD 控 制 器 同时 支持 MMC、SD 卡 ， 又 支持 SDIO 卡 ， 但 是 SD 和 SDIO 的 协 
议 还 是 有 不 一 样 的 地 方 ， 文 持 的 命令 也 会 有 不 同 。 


SD/SDIO 的 传输 模式 有 : 
SPI 模式 
1 位 模式 
4 位 模式 


表 2.1 显 示 了 SDIO 接 口 的 引 脚 定义 。 其 中 CLK 为 时 钟 引 脚 ， 每 个 时 钟 周期 传输 一 个 命令 或 数据 位 ; 
CMD 是 命令 引 脚 ， 命 令 在 CMD 线 上 串 行 传 输 ， 是 双 同 半 双 工 的 (命令 从 主机 到 从 卡 ， 而 命令 的 啊 应 是 从 
卡 发 送 到 主机 〉; DAT[0]~DAT[3] 为 数据 线 引 脚 ! 在 SPI 模 式 中 ， 第 8 脚 位 被 当成 中 断 信 号 。 网 2.18 给 出 了 
一 个 SDIO 单 模块 谈 、 写 的 典型 时 序 。 


表 2.1 ”SDIO 接 口 引 脚 定义 
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b) SDIO 单 模块 写 


图 2.18 ”SDIO 单 模块 读 、 写 的 典型 时 序 


eMMC (Embedded Multi Media Card) 是 当 表 移动 设备 本 地 存储 的 主流 解雇 方案 ， 目 的 在 于 傈 化 手机 


存储 器 的 设计 。eMMC 就 是 NAND Flash、 闪 存 控制 芯片 和 标准 接口 封装 的 集合 ， 它 把 NAND 和 控制 芯片 直 
接 封 装 在 一 起 成 为 一 个 多 芯片 封装 CMulti-Chip Package, MCP) 芯片 。eMMC 支 持 DAT[0]~DAT[7]8 位 的 


数据 线 。 上 电 或 者 复位 后 ， 上 默认 处 于 1 位 模式 ， 只 使 用 DATI0]， 后 续 可 以 配置 为 4 位 或 者 8 位 模式 。 


2.4 CPLDAIFPGA 
CPLD 〔〈 复 杂 可 编程 逻辑 器 件 ) 由 完全 可 编程 的 与 或 门 阵列 以 及 宏 单 元 构成 。 


CPLD 中 的 基本 逻辑 单元 是 宏 单元 ， 宏 单元 由 一 些 “与 或 "阵列 加 上 触发 器 构成 ， 其 中 * 与 或 "阵列 完成 
组 合 逻 辑 功能 ， 触 发 器 完成 时 序 罗 和 辑 功能 。 宏 单元 中 与 阵列 的 输出 称 为 乘积 项 ， 其 数量 标示 着 CPLD 的 容 
量 。 乘 积 项 阵列 实际 上 就 是 一 个 "与 或 "阵列 ， 每 一 个 交叉 点 都 是 一 个 可 编程 熔 丝 ， 如 果 导 通 就 是 实 
现 “ 与 逻辑 。 在 “与 "阵列 后 一 般 还 有 一 个 “或 "阵列 ， 用 以 完成 最 小 逻辑 表达 式 中 的 “或 "关系 。 图 2.19 所 示 


为 非常 典型 的 CPLD 的 单个 宏 单 元 结构 。 


图 2.20 给 出 了 一 个 典型 CPLD 的 整体 结构 。 这 个 CPLD 由 LAB (逻辑 阵列 模块 ， 由 多 个 宏 单元 组 成 ) 通 
过 PIA〈 可 编程 互 连 阵列 ) 互 连 组 成 ， 而 CPLD 与 外 部 的 接口 则 由 LO 控制 模块 提供 。 


p XB PIA 的 信号 
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图 2.19 ”典型 的 CPLD 的 单个 宏 单元 结构 





LO 控制 模块 


图 2.20 ”典型 的 CPLD 整体 架构 


图 2.20 中 宏 早 元 的 输出 会 经 VO 控制 块 壕 全 VO 引 脚 ，VO 控 制 块 控制 每 一 个 WO 引 脚 的 工作 模式 ， 决 定 
其 为 输入 、 输 出 还 是 双 同 引 脚 ， 并 决定 其 三 态 输 出 的 使 能 闹 控 制 。 


与 CPLD 不 同 ，FPGA (现场 可 编程 门 阵 列 ) 基于 LUT (ERK) 工艺 。 查 找 表 本 质 上 是 一 片 RAM,， 


当 用 户 通 过 诛 理 图 或 HDL 《使 件 摘 述 语言 ) 摘 述 了 一 个 乾 辑 电路 以 后 ，FPGA 开 久 软 件 会 目 动 计算 过 辑 电 
路 所 有 可 能 的 结 示 ， 并 把 结 末 事 和 多 与 入 RAM。 这 样 ， 和 输入 一 组 信号 进行 馆 辑 运算 吏 等 于 答 入 一 个 地 址 进 
行 便 表 以 输出 对 应 地 址 的 内 容 。 


图 2.21 所 示 为 一 个 典型 FPGA 的 内 部 结构 。 这 个 FPGA 由 IOC 输入 /输出 控制 模块 ) . EAB RA SUS 
ER) 、LAB 和 快速 通道 互 连 构成 。 
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图 2.21 ”典型 的 FPGA 内 部 结构 


IOC 是 内 部 信号 到 WO 引 脚 的 接口 ， 它 位 于 快速 通 伺 的 行 和 列 的 末 疾 ， 每 个 IOC 包 分 一 个 双 同 WO 绥 冲 
从 和 一 个 既 可 作为 输入 寄存 器 也 可 作为 输出 寄存 带 的 触 友 如。 


EAB Gk ASU TAR) 是 一 种 输入 输出 痛 市 有 寄存 邢 的 非常 赤 活 的 RAM。EAB 不 仅 可 以 用 作 和 存储 
第 ， 还 可 以 事先 与 入 查 表 信 以 用 来 构成 如 乘法 着 、 纠 铬 进 辑 等 电路 。 当 用 村 RAM 时 ，EAB 可 配制 成 8 位 、 
4 位 、2 位 和 1 位 长 度 的 数据 格式 。 


LAB 主 要 用 于 逻辑 电路 设计 ， 一 个 LAB 包 括 多 个 LE CZA) ， 每 个 LE 包括 组 合 逻 辑 及 一 个 可 编 
程 触 发 研 。 一 系列 LAB 构 成 的 旬 辑 阵列 可 实现 普通 锡 辑 功能 ， 如 计数 右 、 加 法 郁 、 状 态 机 等 。 


研 件 内 部 信号 的 互 连 和 和 硕 件 引出 妆 之 间 的 信号 互 连 由 快速 通关 连 线 提供 ， 快 速 通 直通 布 于 整个 FPGA 
俐 件 中 ， 是 一 系列 水 平和 垂直 走 同 的 连续 式 布线 通道 。 


表 2.2 所 示 为 一 个 4 输入 LUT 的 实际 远 辑 电路 与 LUT 实 现 方式 的 对 应 关系。 


表 2.2 ”实际 馆 辑 电路 与 查找 表 的 实现 


LUT 的 实际 逻辑 电路 LUT 的 实现 方式 


a 
b ) 
C 
d 


地 址 线 
输出 


Aa 


16x 1 RAM 
(LUT) 


~ ~ 
— t 





abed 输入 逻辑 输出 地 址 RAM 中 存储 的 内 容 
E 9 J = 0 


CPLD 和 FPGA 的 主要 广 商 有 Altera、Xilinx 和 Lattice 等 ， 它 们 采用 专门 的 开发 流程 ， 在 设计 阶段 使 用 
HDL (如 VHDL、Verilog HDL) 编程 。 它 们 可 以 实现 许多 复杂 的 功能 ， 如 实现 UART、FC 等 IO 控制 芯 
片 、 通 信 算 法 、 音 视频 编 解 码 算 法 等 ， 甚 至 还 可 以 直接 集成 ARM 等 CPU 内 核 和 外 围 电 路 。 


对 于 驱动 工程 师 而 言 ， 我 们 只 需要 这 样 看 待 CPLD 和 FPGA: 如 果 它 完成 的 是 特定 的 接口 和 控制 功 
能 ， 我 们 就 耳 接 把 它 当 成 由 很 多 地 辑 |] CL. dB. mk. Di Aca) 组 成 的 可 完成 一 系列 时 序 远 辑 和 组 合 地 
ZEHJASIC; 如 来 它 完 成 的 是 CPU 的 功能 ， 我 们 束 且 接 把 它 当 成 CPU。 了 驱动 工程 师 眼 里 的 人 硬件 比 IC 设 计 师 
要 宏观 。 


值得 一 提 有 的 是 ，Xilinx 公 司 还 推出 了 ZYNQ 心 厂 ， 内 部 同时 集成 了 两 个 Cortex-A9ARM 多 处 理 右 子 系统 
和 可 编程 馆 辑 FPGA， 同 时 可 编程 馆 辑 可 由 有 用户 配置 。 


2.$ 原理 图 分 析 


原理 图 分 析 的 含义 是 指 通过 陪读 电路 板 的 原理 图 获得 各 种 存储 器 、 外 设 所 使 用 的 人 硬件 资源 、 接 口 和 引 
脚 连 接 关 系 。 若 要 整体 理解 整个 电路 板 的 硬件 组 成 ， 原 理 图 的 分 析 方 法 是 以 主 CPU 为 中 心 向 存储 器 和 外 设 
辐射 ， 步 骤 如 下 。 


1) 疯 读 CPU 部 分 ， 效 知 CPU 的 哪些 请 选 、 中 断 和 集成 的 外 设 控 制 融 在 使 用 ， 列 出 这 些 元 系 a、b、c、 


CPU 引 脚 比较 多 的 时 候 ， 怪 族 可 能 会 梓 分 成 儿 个 模 贡 并 单独 国 在 原理 图 的 不 同 页 上 ， 这 时 应 该 把 相应 
的 部 分 都 分 析 到 位 。 


2) 对 第 1 步 中 列 出 的 元 系 ， 从 原理 图 中 对 应 的 外 说 和 存储 带电 路 中 分 析出 实际 的 使 用 情况 。 
WEF REE A Le BCR 


-从 写 Csymbol) . FoF AA Sh Ad S| ALA S| A aS, XP ARBOR. BRE ORO SIAL 
个 符 写 。 在 从 写 中 ， 一 般 把 属于 同一 个 信号 群 的 引 脚 排列 在 一 起 。 图 2.22 所 示 为 NOR Flash 
AM29LV160DB 和 NAND Flash K9F2G08 的 符号 。 





CEI 


| 


(rs 
tT 
Nw 


a paga 
SS) ERG 


ee 


| 


z 





AM29LV160DB 
TSOP48 


图 2.22 ”原理 图 中 的 符号 


网络 Cnet) 。 描 述 心 片 、 接 手 件 和 分 离 元 右 件 引 脚 之 则 的 互 连 天 系 ， 每 个 网 络 需 要 根据 信号 的 定义 
赋予 一 个 合适 的 名 字 ， 如 果 没 有 给 网 络 取 名 字 ，EDA 软 件 会 自动 添加 一 个 默认 的 网 络 名 。 添 加 网 络 后 的 
AM29LV160DB 如 图 2.23 所 示 。 


手 述 。 原 理 图 中 会 洪 加 一 些 文 学 来 辅助 手 述 原理 图 (类似 源 代 人 码 中 的 注释 ) ， 如 每 页 页 脚 会 有 该 页 
的 功能 描述 ， 对 重要 的 信和 号， 在 原理 图 的 相应 符号 和 网 络 中 也 会 附带 文字 说 明 。 图 2.24 中 给 出 了 原理 图 中 


的 搞 述 示例 。 
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图 2.23 ”原理 图 中 的 网 络 
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图 2.24 原理 图 中 的 描述 示例 


2.6， 便 件 时 序 分 析 
2.6.1 ”时序 分 析 的 概念 


驱动 工程 师 一 般 不 需要 分 析 便 件 的 时 序 ， 但 是 鉴 于 许多 企业 内 驱动 工程 师 还 需要 承担 电路 板 调 试 的 任 
务 ， 因 此 ， 笃 握 时 序 分 析 的 方法 也 束 比 较 必要 了 了 。 


对 驱动 工程 师 或 硬件 工程 师 而 言 ， 时 序 分 析 的 意思 是 让 芯片 之 间 的 访问 满足 芯片 数据 手册 中 时 序 图 信 
号 有 效 的 先后 顺序 、 采 样 建立 时 间 (Setup Time) 和 保持 时 间 (Hold Time) WER, E ERR LIEDE 
的 时 候 ， 准 确 地 定位 时 序 方面 的 问题 。 


建立 时 间 是 指 在 触发 器 的 时 钟 信号 边沿 到 来 以 前 ， 数 据 已 经 保持 稳定 不 变 的 时 间 ， 如 果 建 立时 间 不 
够 ， 数 据 将 不 能 在 这 个 时 钟 边 沿 被 打 入 触发 器 ， 保 持 时 间 是 指 在 触发 器 的 时 钟 信号 边沿 到 来 以 后 ， 数 据 还 
需 稳定 不 变 的 时 间 ， 如 果 保持 时 间 不 够 ， 数 据 同样 不 能 被 打 入 触发 器 。 如 图 2.25 所 示 ， 数 据 稳定 传输 必须 
满足 建立 时 间 和 保持 时 间 的 要 求 ， 当 然 ， 在 一 些 情况 下 ， 建 立时 间 和 保持 时 间 的 值 可 以 为 零 。 


pp a o o u uua 
(0T wN 2 
建立 时 间 ”保持 时 间 


图 2.25 ”建立 时 间 和 你 持 时 间 


2.6.2 ”典型 的 人 硬件 时 序 


最 典型 的 便 件 时 序 是 SRAM 的 恋 写 时 序 ， 在 读 / 写 过 程 中 涉及 的 信号 包括 地 址 、 数 据 、 片 选 、 读 / 写 、 
"EB f BER ES. X T-—416ebr. 3244 (E6402) 的 SRAM， 字 节 使 能 表明 哪些 字 节 被 读 写 。 


多 2.26 给 出 了 SRAM 的 谈 时 序 ， 与 时 序 与 此 相似 。 首 先 ， 地 址 总 线 上 输出 要 谈 “〈 与 ) 的 地 址 ， 然 后 友 
出 SRAM 片 选 信号 ， 接 着 输出 读 ( 写 ) 信号 ， 之 后 读 〈 写 ) 信号 要 经 历数 个 等 待 周期 。 当 SRAM 读 〈 写 ) 
速度 比较 慢 时 ， 等 每 周期 可 以 由 MCU 的 相应 寄存 右 设 置 ， 也 可 以 通过 设备 就 续 / 忙 《如 图 2.27 中 的 nWait) 
向 CPU 报告 ， 这 样 ， 读 写 过 程 中 会 自动 添加 等 待 周期 。 
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图 2.26 ”SRAM 读 时 序 图 
NOR Flash 和 许多 外 设 控制 芯片 都 使 用 了 类 似 SRAM 的 访问 时 序 ， 因 此 ， 牢 固 掌 握 这 个 时 序 意义 重 
大 。 一 般 ， 在 心 片 数据 手册 给 出 的 时 序 图 中 ， 会 给 出 图 中 各 段 时 间 的 售 义 和 要 求 ， 真 实 的 电路 板 必 须 满足 
蕊 片 数 据 手 册 中 描述 的 建立 时 间 和 保持 时 间 的 最 小 要 求 。 


2.7 心 睫 数据 于 册 疯 读 方 法 


心 盯 数据 手册 往往 长 达 数 日 页 ， 其 全 上 二 页 ， 而 且 全 部 是 英文 ， 从 头 到 尾 不 加 区 分 地 阅读 需要 化 忱 非 
季 长 的 时 间 ， 而 且 不 一 定 能 获取 对 设计 设备 张 动 有 帮助 的 信息 。 心 卢 数据 手册 的 正确 阅读 方法 旦 快速 而 准 
确 地 定位 有 用 信息 ， 午后 赔 读 这 些 信息 ， 忽 略 巨 天 内容。 下 面 以 S3C6410A 的 数据 手册 为 例 来 分 析 阅 读 方 
法 ， 为 了 生 观 地 反映 阅读 过 程 ， 本 廊 的 图 部 是 卫 接 从 数据 手册 中 抓 屏 而 得 到 的 。 


打开 S3C6410A 的 数据 手册 ， 发 现 页 数 为 1378 页 ， 从 头 谈 到 尾 是 不 现实 的 。 

S3C6410A 数 据 手 册 的 第 1 章 'PRODUCT OVERVIEW” (产品 综述 ) 是 必 读 的 ， 通 过 阅读 这 一 部 分 可 以 
获知 整个 蕊 片 的 组 成 。 这 一 半 往 往 会 给 出 一 个 蕊 片 的 整体 结构 图 ， 并 对 蕊 片 内 的 主要 模块 进行 一 个 简洁 的 
摘 述 。S3C6410A 的 整体 结构 图 如 图 2.27 所 示 〈( 见 数据 手册 第 61 页 )。 


1.2 FEATURES 
This section summarizes the features of the S3C6410X. Figure 1-1 is an overall block diagram of the S3C6410X. 
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图 2.27 ” S3C6410A 数 据 手 册 中 的 心 厅 结构 图 


第 2~43 章 中 的 每 一 章 都 对 应 S3C6410A 人 整体 结构 图 中 的 一 个 模块 ， 图 2.28 为 从 Adobe Acrobat t HI 
取 的 S3C6410A 数 据 手册 的 目 孙 结构 图 。 


"B2:i"MemoryMap" (内存 映 射 ) 比较 关键 ， 对 于 定位 存储 器 和 外 设 所 对 应 的 基 址 有 直接 指导 


这 一 部 分 应 该 细 看 。 
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要 是 分 析 数 据 、 


控制 、 地 址 寄存 器 
(数据 手册 中 会 给 出 步 又 ， 有 的 还 


(数据 手册 中 一 般 会 以 表格 列 出 ) 的 访问 控制 和 有 具体 设备 的 操作 流程 
壁 如 为 了 编写 S3C6410A 的 PC 控制 器 


不 会 给 出 流程 图 ) 。 
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图 2.28 ”S3C6410A 数 据 手册 的 日 录 结 构 


7 


» SA Re AN SREY, DA AH ed E. 


TEAM bed EA ES 2..29 FÉ] 3 41-6 RE oc RIE A 2. 30H PATE DILE AL e 


544 = “ELECTRICAL DATA" ON FHSAA, ZER2.28 mH) , fi 
压 、 电 流 和 各 种 工作 模式 下 的 时 序 、 建 立时 间 和 保持 时 间 的 要 求 。 所 有 的 数据 手册 都 会 包含 
一 草 对 于 硬件 工程 师 比 较 关 键 ， 但 是 ， 一 般 来 说 ， 红 动工 程 师 并 不 需要 陪读 。 


第 45 章 “MECHANICAL DATA”( 机 械 数据 ) 描述 芯片 的 物理 特性 、 尺 十 和 封装 
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图 2.29 
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IICCON IIC Channel 0 Bus control register 
0x7FO0F000 IIC Chan 


Tx/Rx Interrupt (5) 


Interrupt pending flag (2) 
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Transmit clock value (4) 


Acknowledge generation [ 

(1) 0: Disable 
1: Enable 
n Rx 


Tx clock source selection urce c 
selection bit 
EE- ble, 


[3:0] 


30.11.1 MULTI-MASTER IIC-B US CONTROL (IICCON) REGISTER 


mw | — Bespi | Reset Value 


nel 1 Bus control register 


inital State 


7] |IIC-bus acknowledge (ACK) enable bit. 


In Tx mode, the IICSDA is free in the ACK time. 
In Rx mode, the IICSDA is L in the ACK time. 


Source clock of IIC-bus transmit clock prescaler 


0: IICCLK = PCLK /16 
1: IICCLK = PCLK /512 


0: 1) No interrupt — ng (when read). 
2) Clear pending condition & 


Resume 
1: 1) Interrupt is 
2) N/A (when 


the wa ation Healt e). 
read 


Lai ding (whe ) 
te) 





IIC-Bus transmit c ES scaler Undefined 
IIC-Bus transmit c agri ncy is s determined by this 
4-bit pre escaler v alue, according to the following 


for 
Tx clock = IICCLK/IICCON[3:0] 1). 





s Fr BUR T P PARERE SUP] ER BIS FF d XE 


SU, Baa] Fa 


XS Fr BAR TE, UHR 


类 似 章节 ， 这 


， 使 件 工 程 师 会 依据 


Ak X, 
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30.10 FLOWCHARTS OF OPERATIONS IN EACH MODE 
The following steps must be executed before any IIC Tx/Rx operations. 


1. Write own slave address on |ICADD register, if needed. 
2. Set lICCON register. 

a) Enable interrupts 

b) Define SCL period 
3. SetlICSTAT to enable Serial Output 


(START ) 
Master Tx mode has 
been configured. 
Write slave address to 
ICOS. 


Write OFO (WT 
Start) tp IICSTAT. 


The data of the ICDS is 
transmitted . 


N 
Write new data Write 0x00 (MT 
transmitted to IICDS. Stop) o IICSTAT. 


Clear pending bit . 


The data of the IICDS is Wait until the stop 
shifted to SDA. condifion takes effect. 
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2.8 AXARI KIE H 


2.8.1 HHK 
在 电路 板 调试 过 程 中 主要 使 用 万 用 表 的 两 个 功能 。 
测量 电 平 。 


使 用 二 极 害 挡 测量 电路 板 上 网 络 的 连 退 性 ， 当 示 波 带 被 设置 在 二 极 害 接 ， 测 量 连 通 的 网 络 会 友 出 “ 呆 
m EASA, BAW, KAER., 


2.8.2 ”示波器 


示 波 融 是 利用 电子 示 波 管 的 特性 ， 将 人 眼 无 法 和 直接 观 测 的 交 变 电信 号 转换 成 图 像 ， 显 示 在 实 光 屏 上 以 
便 测 量 的 电子 仪 苍 。 它 是 观察 数字 电路 实验 现象 、 分 析 实 验 中 的 问题 、 测 量 实验 结 束 必 不 可 少 的 重要 仪 


BJ 


AN o 


使 用 示波器 时 应 主要 注意 调节 垂直 偏转 因数 选择 CVOLTS/DIVO 和 微调 、 时 基 选 择 (TIME/DIV) 和 
微调 以 及 触发 方式 。 


如 果 VOLTS/DIV 设 置 不 合理 ， 则 可 能 造成 电压 幅 皮 超出 整个 屏 适 或 在 屏 俊 上 变动 太 过 微小 以 致 无 法 
观测 的 现象 。 图 2.31 所 示 为 同一 个 波形 在 VOLTS/DIV 设 置 由 大 到 小 变化 过 程 中 的 示意 图 。 
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图 2.31 示波器 的 VOLTS/DIV 设 置 与 波形 


如 果 TIME/DIV 设 置 不 合适 ， 则 可 能 造成 波形 混 迭 。 混 碗 意味 着 屏幕 上 显示 的 波形 频率 低 于 信号 实际 
频 识 。 这 时 低 ， 可 以 通过 缓慢 改变 扫 速 TIME/DIV 到 较 快 的 时 基 挡 提 融 波形 频 京 ， 如 果 波 形 频 读 参 数 急 剧 
改变 或 者 晃动 的 波形 在 某 个 较 快 的 时 基 挡 稳定 下 来 ， 说 明之 前 发 生 了 波形 混和 迭 。 根 据 奈 奎 斯 特定 理 ， 采 样 
速率 至 少 高 于 信号 高 频 分 量 的 两 倍 才 不 会 发 生 混 欠 ， 如 一 个 500MHz 的 信号 ， 人 至 少 需要 1GS/s 的 采样 速 
率 。 图 2.32 所 示 为 同一 个 波形 在 TIME/DIV 设 置 由 小 到 大 变化 过 程 中 的 示意 图 。 
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E232 “示波器 的 TIME/DIV 设 置 与 波形 
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大 致 相当 于 物理 学 领域 中 的 牛顿 定律 。 


在 示 站 和 货 的 使 用 过 程 中 ， 要 设 症 触及 方式 和 触 妥 和 模式。 触及 的 目的 是 为 了 在 每 次 巡 示 的 时 候 都 从 波形 
的 同一 位 置 开 始 ， 沈 形 可 以 稳定 显示 。 一 般 示 小 和 硕 孝 文 持 边 泽 和 触 肥 ， 在 东 些 情况 下 ， 我 们 也 要 使 用 视频 触 
发 、 毛 刺 触 发 、 脉 客 触 发 、 和 斜率 触发 、 码 型 触发 等 。 设 定 正 确 的 触发 ， 可 以 大 大 提高 测试 过 程 的 灵活 性 ， 
开 人 简化 工作 。 


AN Sa AOC EES AACR: 目 动 模式 、 徊 规模 式 和 单 次 模式 。 


- 目 动 模式 〈 示 波 带 面板 上 的 AUTO 按 饥 )。 在 这 种 模式 下 ， 当 触 友 没 有 友 生 时 ， 示 波 卓 的 扫 插 系统 会 
AR De Be WE WTA ES BET Tis 而 当 有 触 友 肥 生 时 ， 扫 拍 系 统 会 尽量 按 信 和 写 的 频 京 进行 扫 手 。 因 此 ， 
AUTO 侦 式 下 ， 不 论 和 触及 条 件 是 个 满 足 ， 示 小 带 都 会 产生 扫 朱 ， 都 可 以 在 屏 医 上 看 到 有 变化 的 扫描 线 ， 这 
是 这 种 柑 式 的 特 抬 。 一 般 来 说， 在 对 信 写 的 特点 个 是 很 了 解 的 时 候 ， 可 先 选 择 目 动 模 式 。 


-常规 模式 (示波器 面板 上 的 NORM 或 NORMAL 按 钮 ) 。 在 这 种 模式 下 ， 示 波 器 只 有 当 触 发 条 件 满足 
了 才 进 行 扫 描 ， 如 果 没 有 触发 ， 就 不 进行 扫描 。 因 此 在 这 种 模式 下 ， 如 果 没 有 触发 ， 对 于 模拟 示波器 而 
言 ， 用 户 不 会 看 到 扫 拉 线 ， 对 于 数字 示 波 右 而 言 ， 丰 会 看 到 波形 更 新 。 


: 单 次 模式 (示波器 面板 上 的 SIGL 或 SINGLE 按 钮 ) 。 这 种 模式 与 NORMAL 模 式 有 一 点 类 似 ， 就 是 只 
有 当 触 发 条 件 满足 时 才 产 生 扫 摘 ， 否 则 不 扫描 。 而 不 同 在 于 ， 这 种 扫 摘 一 旦 产生 并 完成 后 ， 示 波 器 的 扫描 


系统 即 进入 一 种 休止 状态 ， 即 使 后 面 再 有 满足 触及 条 件 的 信号 出 现 也 不 再 进行 扫 朱 ， 也 融 是 触及 一 砍 只 扫 
手 一 次 。 实 际 工 作 中 ， 可 能 要 根据 情况 在 目 动 、 第 规 和 单 次 模式 之 间 进 行 切换 。 


2.8.3. JE RA TAX 


X7 HAY Br Dose fU HIST PE MU aN BC ER BF I S FEET SEAN Mas REREH ze FS ESF 
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例如 ， 如 果 以 n MHz 采样 率 测 量 一 个 信号 ， 赐 辑 分 析 仪 会 以 1000m ns 为 周期 采样 信号 ， 当 参考 电压 议 
定 为 1.5V 时 ， 超 过 1.5V 则 判定 为 1， 低 于 1.5V 则 为 0， 将 逻辑 1 和 0 连接 成 连续 的 波形 ， 工 程 师 依 据 此 连续 
波形 可 寻找 时 序 问题 。 


高 并 逻辑 分 析 仪 会 安装 Windows 操 作 系 统 并 提供 非常 友善 的 逻辑 分 析 应 用 软件 ， 在 其 中 可 方便 地 编辑 
探 针 、 信 号 并 查看 波形 。 这 种 逻辑 分 析 仪 一 般 称 为 传统 逻辑 分 析 仪 ， 其 功能 强大 ， 数 据 采 集 、 分 析 和 波形 
显示 融 于 一 身 ， 但 是 价格 十 分 昂贵 。 有 的 逻辑 分 析 仪 则 没有 图 形 界 面 ， 但 是 可 以 通过 USB 等 接口 与 PC 连 
接 ， 分 析 软 件 则 工作 在 PC 上 。 这 种 逻辑 分 析 仪 一 般 称 为 虚拟 逻辑 分 析 仪 ， 它 是 PC 技术 和 测量 技术 结合 的 
产物 ， 触 发 和 记录 功能 由 虚拟 逻辑 分 析 仪 硬件 守成， 波形 显示 、 输 入 设置 等 功能 由 PC 完成 ， 因 此 比较 廉 
价 。 图 2.33 给 出 了 两 种 逻辑 分 析 仪 。 
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图 2.33 ”逻辑 分 析 仪 


你 辑 分 析 仪 的 波形 可 以 最 未 地址、 数据、 控制 信号 及 任意 外 部 探头 信和 喜 的 变化 轨迹 ， 在 使 用 之 前 应 多 
编辑 每 个 探头 的 信号 名 。 之 后 ， 根 据 波形 还 原 出 总 线 的 工作 时 序 ， 图 2.34 给 出 了 一 个 IC 的 例子 。 目 前 ， 
很 多 进 辑 分 析 仪 都 目 市 了 协议 分 析 能 力 ， 可 以 目 动 分 析出 总 线 上 传输 的 命令 、 地 址 和 数据 等 信息 。 








图 2.34 ”从 逻辑 分 析 仪 波形 还 原 了 fC 总 线 


逻辑 分 析 仪 具有 超 强 的 逻辑 跟踪 分 析 功 能 ， 它 可 以 捕获 并 记录 嵌入 式 处 理 器 的 总 线 周 期 ， 也 可 以 捕获 
如 实时 跟踪 用 的 ETM 接 口 的 程序 执行 信息 ， 并 对 这 些 记录 进行 分 析 、 译 码 且 还 原 出 应 用 程序 的 执行 过 


程 。 因 此 ， 可 使 用 馆 辑 分 析 仪 通过 和 触发 接口 与 ICD 《在 线 调试 器 ) 协调 工作 以 补 苑 ICD 在 跟踪 功能 方面 的 
人 不足。 秘 辑 分 析 仪 与 ICD 协 作 可 为 工程 病 提 供 断 点 、 般 肥 和 跟踪 调试 手段 ， 如 图 2.3$ 所 示 。 





ICD 是 一 个 容易 与 1CE GEA Aas) 混 消 的 概念 ，ICE 本 刁 需 要 完全 仿真 CPU 的 行为 ， 可 以 从 
物理 上 完全 普 代 CPU， 而 ICD 则 只 是 与 必 搬 内 部 的 租 入 却 ICE 早 元 通过 JTAG 等 接口 互通 。 因 此 ， 对 ICD 的 
便 件 性 能 要 求 远 低 于 ICE。 目 前 市 面 上 出 现 的 很 多 号 称 为 ICE 的 产品 实际 上 是 ICD 等 ， 但 是 人 们 一 般 也 称 它 
们 为 ICE。 


逻辑 分 析 仪 





图 2.35 ”逻辑 分 析 仪 与 ICD 协 作 


本 和 章 简 单 地 讲解 了 张 动 软件 工程 病 必 备 的 硬件 基础 知识 ， 拍 述 了 处 理 规 、 存 储 磺 的 分 基 以 及 各 种 处 理 
aay FF fas RPS i, drop S E Lh el ie he A pS YF A 


此 外 ， 本 章 还 讲述 了 对 驱动 工程 师 进行 实际 项 目 开 友 有 帮助 的 原理 图 、 健 件 时 友 分 析 方 法 ， 心 片 数据 
手册 阅读 方法 以 及 万 用 表 、 示 波 人 融和 远 辑 分 析 仪 的 使 用 方法 。 


第 3 章 ” Linux 内核 及 内 校 编程 
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3.1~3.2 节 讲解 了 Linux 内 核 的 演变 及 新 版 Linux 内 核 的 特点 。 


3.3 节 分 析 了 Linux 内 核 源 代 人 码 目 录 结 构 和 Linux 内 核 的 组 成 部 分 及 其 天 系 ， 并 对 Linux 的 用 户 空 间 和 内 


3.4 广 讲述 了 Linux 内 核 的 编 详 及 内 核 的 引 叶 过程 。 除 此 之 外 ， 还 搬 述 了 在 Linux 内 核 中 新 增 程序 的 方 
驱动 工程 帅 编 写 的 设备 驱动 也 应 该 以 此 方式 洪 加 。 


avs 
DH 


3.5 节 阐述 了 Linux 下 C 编 程 的 命名 习惯 以 及 Linux 所 使 用 的 GNU C 针 对 标准 C 的 扩展 语法 。 


3.6 闻 讲解 了 Linux 的 工具 链 以 及 工具 链 对 浮 点 的 文 持 情况 。 


3.7 市 介绍 了 公司 或 学 校 的 实验 室 建 设 情况 。 


3.8 节 介绍 了 Linux 下 的 串口 工具 。 


3.1 Linux 内 核 的 发 展 与 演变 


Linux 操 作 系 统 是 UNIX 操 作 系 统 的 一 种 克隆 系统 ， 是 一 种 关 UNIX 操 作 系 统 ， 诞 生 于 1991 年 10 月 5 日 
(第 一 次 正式 同 外 公布 的 时 间 〉 ， 起 初 的 作者 是 Linus Torvalds。Linux 操 作 系 统 的 诞生 、 发 展 和 成 长 过 程 
信赖 着 5 个 重要 支柱 : UNIX 操 作 系 统 、Minix 操 作 系 统 、GNU 计 划 、POSIX 标 准 和 Internet。 


1.UNIX 操 作 系 统 


UNIX 操 作 系 统 是 美国 贝尔 实验 室 的 Ken.Thompson 和 Dennis Ritchie 于 1969 年 夏 在 DEC PDP-7 小 型 计算 
机 上 开发 的 一 个 分 时 操作 系统 。Linux 操 作 系 统 可 看 作 UNIX 操 作 系 统 的 一 个 殉 隆 版 本 。 


2.Minix 操 作 系 统 


Minix 操 作 系 统 也 是 UNIX 的 一 种 元 隆 系 统 ， 它 于 1987 年 由 著名 计算 机 教授 Andrew S.Tanenbaum 开 发 完 
成 。 有 开放 源 代 人 码 的 Minix 系 统 的 出 现在 全 世界 的 大 学 中 刊 起 了 学 习 UNIX 系 统 的 谋 风 。Linux 刚 开始 束 是 
参照 Minix 系 统 于 1991 年 开发 的 。 


3.GNU 计 划 


GNU 计 划 和 自由 软件 基金 会 (FSF) 是 由 Richard M.Stallman 于 1984 年 创办 的 ，GNU 是 “GNU's Not 
UNIX” 的 缩写 。 到 20 世 纪 90 年 代 初 ，GNU 项 目 已 经 开发 出 许多 高 质量 的 免费 软件 ， 其 中 包括 emacs 编 辑 系 
统 、bash shell 程 序 、gcc 系 列 编译 程序 、GDB 调 试 程序 等 。 这 些 软件 为 Linux 操 作 系 统 的 开发 创造 了 一 个 合 
适 的 环境 ， 是 Linux 诞 生 的 基础 之 一 。 没 有 GNU 软 件 环 境 ，Linux 将 寸步 难 行 。 因 此 ， 严 格 来 
Wü, "Linux" MIZERI“ GNU/Linux" RA- 


下 面 从 左 到 右 依 次 为 前 文 所 提 到 的 5 位 大 师 Linus Torvalds, Dennis Ritchie, Ken. Thompson. Andrew 
S.Tanenbaum、Richard M.Stallman。 但 愿 我 们 能 够 退 随 大 师 的 是 迹 ， 让 目 己 不 断 地 成 长 与 进步 。Linus 
Torvalds 的 一 番 话 甚 为 有 道理 : “Most good programmers do programming not because they expect to get paid or 
get adulation by the public, but because it is fun to program.” 技 术 成 长 的 源 动 力 应 该 是 兴趣 而 非 其 他 ， 只 有 兴 
趣 才 可 以 文 撑 一 个 人 持续 不 断 地 十 年 如 一 日 地 努力 与 学 习 。Linus Torvalds 本 人 人， 虽然 已 经 是 一 代 大 师 ， 仍 
然 在 不 断 地 千 理 和 合并 Linux 和 内 核 的 代码 。 这 点 ， 在 国内 浮躁 的 学 术 所 围 之 下 ， 几 乎 是 不 可 思议 的 。 我 
想 ， 中 国 梦 至少 包 售 每 个 码 农 都 可 以 因为 扩 术 成 长 而 得 到 人 生出 彩 的 机 会 。 





4.POSIX 标 准 


POSIX (Portable Operating System Interface， 可 移植 的 操作 系统 接口 ) ze HIEEEMISO/IECH RRHH 
标准 。 访 标准 基于 现 有 的 UNIX 实 践 和 经 验 完 成 ， 摘 述 了 棵 作 系 统 的 调用 服务 接口 ， 用 于 你 证 编写 的 应 用 
程序 可 以 在 源 代 码 级 上 在 多 种 操作 系 纺 中 移植 。 该 标准 在 推动 Linux 操 作 系 纺 明 看 正规 化 发展， 和 古 Linux 前 
ERAT TS e 


5. 互 联网 


如 果 没 有 互联 网 ， 没 有 表 布 全 世界 的 无 数 计算 机 骇 客 的 无 私 奉 献 ， 那 么 Linux 最 多 只 能 发 展 到 Linux 
0.13 (0.95) 版 本 的 水 平 。 从 Linux 0.9$ 厂 开始 ， 对 内 核 的 许多 改进 和 扩充 均 以 其 他 人 为 主 了 ， 而 Linus 以 
及 其 他 维护 者 的 主要 任务 开始 变 成 对 内 核 的 维护 和 决定 是 否 采 用 某 个 补丁 程序 。 


表 3.1 插 述 了 Linux 操 作 系 统 曾 要 版 本 的 变迁 历史 及 各 版 本 的 主要 特 拟 。 


=] > + 
HH 
表 3.1 Linux 操 作 系 统 版 本 的 历史 及 特点 
Linux 0.1 1991 年 10 H 最 初 的 原型 
Linux 1.0 1994 ^F. 3 H 包含 了 386 的 官方 文 持 ， 仅 文 持 单 CPU 系统 
Linux 1.2 1995 年 3 月 常 一 个 包 舍 多 平台 (Alpha, Sparc, MIPS 等 ) 文 持 的 官方 版 本 
5^E 6H 
t 1H 
1H 


Linux 2.0 


1996 年 6 包含 很 多 新 的 平台 支持 ， 最 重要 的 是 ， 它 是 第 一 个 支持 SMP (对 称 多 
处 理 器 ) 体系 的 内 核 版 本 


Linux 2.2 1999 年 ] 极 大 提升 SMP 系统 上 Linux 的 性 能 、 并 支持 更 多 的 便 件 


2001 4 进一步 提升 了 SMP 系统 的 扩展 性 .同时 也 集成 了 很 多 用 于 支持 果 面 系 
统 的 特性 : USB, PC F (PCMCIA) 的 支持 ， 内 置 的 即 插 即 用 等 


无 论 是 对 于 企业 服务 需 还 是 对 于 其 和 人 式 系统 ，Linux 2.6 都 是 一 个 巨 
大 的 进步 。 对 高 冰 机 融 来 说 ， 新 特性 针对 的 是 性 能 改进 、 可 扩展 性 、 和 大 
2003 年 12 月 ~ 1 吐 率 ， 以 及 对 SMP 机 器 NUMA AY ee. MERA SM, BI TN 
2011 年 5 月 休 系 结构 和 处 理 器 类 型 。 包 括 对 那些 没有 硬件 控制 的 内 存 管理 方案 的 无 
MMU 系统 的 支持 。 同 样 ， 为 了 满足 桌面 用 户 群 的 需要 ， 添 加 了 一 整套 新 
的 音频 和 多 媒体 驱动 程序 
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Linux 2. 


Linux 2.6.0 ~ 2.6.39 


Linux 3.0 ~ 3.19. 


Linux 4.0-rcl 至 今 


开发 热点 聚焦 于 虚拟 化 、 新 文件 系统 、Android、 新 体系 结构 支持 以 及 
性 能 优化 等 





Linux 内 核 通 党 以 2~3 个 月 为 周期 更 新 一 座 大 的 版 本 号， 如 Linux 2.6.345€ f£20104F5 A RAH, Linux 
2.6.35 的 及 布 时 间 则 为 2010 年 8 月 。Linux 2.6 的 最 后 一 个 版 本 古 Linux 2.6.39， 之 后 Linux 内 核 过 疲 到 Linux 
3.0 版 本 ， 同 样 以 2~3 个 月 为 周期 更 新 小 数 点 后 第 一 位 。 因 此 ， 内 核 Linux 3.x 时 代 ，Linux 3 和 Linux 2.6 的 地 
位 对 等 ， 因 此 ，Linux 2.6 时 代 的 版 本 变更 是 Linux 2.6.N~2.6.N+1 以 2~3 个 月 为 周期 递 进 ， 而 Linux 3.x 时 代 
后 ， 则 是 Linux 3.N~3.N+1 以 2~3 个 月 为 周期 递 进 。Linux 3.x 的 最 后 一 个 版 本 是 Linux 3.19。 


在 Linux 内 核 版 本 发 布 后 ， 还 可 以 进行 一 个 修复 bug 或 者 少量 特性 的 反 向 移植 (Backport， 即 把 新 版 本 
中 才 有 的 补丁 移植 到 已 经 发 布 的 老 版 本 中 ) 的 工作 ， 这 样 的 版 本 以 小 数 点 后 最 后 一 位 的 形式 发 布 ， 如 
Linux 2.6.35.1、Linux 2.6.35.2、Linux 3.10.1 和 Linux 3.10.2 等 。 此 类 已 经 发 布 的 版 本 的 维护 版 本 通常 是 由 
Greg Kroah-Hartman 等 人 进行 管理 的 。Greg Kroah-Hartmanzé 4E LDD3 (《Linux 设 备 驱动 〈 第 3 版 ) 》 的 
全 


天 于 Linux 内 核 从 Linux 2.6.3925 E 7JLinux 3.0 的 变化 ， 按 照 Linus Torvalds 的 解释 ， 并 没有 什么 大 的 改 


AE: “NOTHING.Absolutely nothing.Sure, we have the usual two thirds driver changes, and a lot of random 


fixes, but the point 1s that 3.01s*just*about renumbering, we are very much*not*doing a KDE-4or a Gnome- 
3here.No breakage, no special scary new features, nothing at all like that.” 因 此 ， 简 单 来 说 ， 版 本 号 变更 
FV.” AIIE AME REN” o 


天 于 Linux 内 核 每 一 个 版 本 具体 的 变更 ， 可 以 参考 网 页 http://kernelnewbies.org/LinuxVersions， 比 如 


Linux 3.15 和 针对 Linux 3.14 的 变更 归纳 在 : http://kernelnewbies.org/Linux 3.15. 


PEA BS ENE, 20154625230, EWK Y Linux 4.0-rcl 的 诞生 ， 而 理由 仍然 是 那么 “无 厘 


..after extensive statistical analysis of my G+ polling. I've come to the inescapable conclusion that internet 


polls are bad. 
Big surprise. 


But"Hurr durr I'ma sheep"trounced"I like online polls"by a 62-to-38% margin, ina poll that people weren't 


even supposed to participate 1n. 


Who can argue with solid numbers like that 5796 votes from people who can't even follow the most basic 


directions 


In contrast, "v4.0"beat out"v3.20"by a slimmer margin of 56-to-44%, but with a total of 29110 votes right 


now. 


Now, arguably, that vote spread 1s only about 3200 votes, which 1s less than the almost six thousand votes 


that the"please ignore"poll got, so it could be considered noise. 


But hey, I asked, so I'll honor the votes. 


A3. 1n] UGH, Linux it — BRA SCH ES ICRU, MEP FIA BARA ba ee, SCRE) 12 0 
PEN DAL, Sete ear NTE REI 3 TT I ACHE ARMER, Linux A AEA A A eee A, FEE 
XE NR 8 EA Linux P322 ELAS ALB] i, ACE AES ASP Ae OR FP RZ Linux ^ i BEA ofa AA 
Hot, LinuxA Kae — P REA ei. X Linux iA Ze, A Be iF 


http://www. linuxfoundation.org/news-media/IwfH) «Linux Weather Forecast) 。 


ER f Linux A AK Er uj] fe fee Be PEARLA, —H#E) TS S Linux NARE H RFE P S 
Fe AIP SAID ARE, lle f 5 SETA PCHUARS 48 Linux 47h (Distro) ， 如 Ubuntu、Red Hat. 
Fedora、Debian、SuSe、Gentoo 等 ， 国 内 的 红旗 Linux 开 发 商 中 科 红 旗 则 已 经 宣布 倒闭 。 


再 者 ， 和 针对 区 入 式 系 统 的 应 用 ， 一 些 集 成 和 优化 内 核 、 开 发 工具 、 中 辐 件 和 UI 框架 的 钥 入 式 Linux 伞 
开发 出 来 了 ， 例 如 MontaVista Linux、Mentor Embedded Linux、MeeGo、Tizen、Firefox OS 等 。 


Android 采 用 Linux 内 核 ， 但 是 在 内 核 里 加 入 了 一 系列 补丁 ， 如 Binder、ashmem、wakelock、1low 
memory killer、RAM_CONSOLE 等 ， 目 前 ， 这 些 补 本 中 的 绝 大 多 数 已 经 进入 Linux 的 产品 线 。 


图 3.1 显 示 了 Linux 2.6.13 以 来 每 个 内 核 版 本 参与 的 人 、 组 织 的 情况 以 及 每 次 版 本 演进 的 时 候 被 改变 的 
代码 行 数 和 补丁 的 数量 。 目 前 每 次 版 本 升级 ， 痢 有 分 布 于 200 多 个 组 织 超 过 1000 人 提交 代码 ， 被 改变 的 代 
但 行 数 超过 100 万 行 ， 补 丁 数量 达 1 万 个 。 
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3.2 Linux 2.6 后 的 内 核 特 点 


Linux 2.6 内 核 是 Linux 开 发 者 群 洛 一 个 寄 子 厚望 的 版 本 ， 从 2003 年 12 月 直人 到 2011 年 7 月 ， 内 核 重 新 进行 
了 版 本 的 编号 ， 从 而 过 疲 到 Linux 3.x 版 本 直到 成 书 时 的 Linux 4.0-rcl 。 


Linux 2.6 相 对 于 Linux 2.4 有 相当 大 的 改进 ， 主 要 体现 在 如 下 几 个 方面 。 
1 .新 的 调度 需 


Linux 2.6 以 后 版 本 的 Linux 内 核 使 用 了 新 的 进程 调度 算法 ， 它 在 高 负载 的 情况 下 有 极其 出 色 的 性 能 ， 
并 且 当 有 很 多 处 理 器 时 也 可 以 很 好 地 扩展 。 在 Linux 内 核 2.6 的 早期 采用 了 O (1) 算法 ， 之 后 转移 到 
CFS (Completely Fair Scheduler， 完 全 公平 调度 ) 算法 。 在 Linux 3.14 中 ， 也 增加 了 一 个 新 的 调度 类 : 
SCHED DEADLINE， 它 实现 了 EDF (Earliest Deadline First， 最 早 截止 期 限 优 先 ) 调度 算法 。 


2. 内 核 抢占 


在 Linux 2.6 以 后 版 本 的 Linux 内 核 中 ， 一 个 内 核 任务 可 以 被 抢占 ， 从 而 提 融 系 统 的 实时 性 。 这 样 做 最 
主要 的 优势 在 于 ， 可 以 极 大 地 增强 系统 的 用 户 交 互 性 ， 用 户 将 会 觉得 鼠标 单 击 和 击 键 的 事件 得 到 了 更 快速 
的 啊 应 。Linux 2.6 以 后 的 内 核 版 本 还 是 存在 一 些 不 可 抢占 的 区 间 ， 如 中 断 上 下 文 、 软 中 断 上 下 文 和 上 自 旋 锁 
锁 住 的 区 间 ， 如 果 给 Linux 内 核 打 上 RTPreempt 补 于 ， 则 中 断 和 软 中 断 都 被 线程 化 了 ， 自 旋 锁 也 被 互 斥 体 
符 换 ，Linux 内 核 变 得 能 文 持 便 实 时 。 


如 图 3.2 所 示 ， 左 侧 是 Linux 2.4， 碳 侧 是 Linux 2.6 以 后 的 内 核 。 在 Linux 2.4 的 内 核 中 ， 在 耻 Q1 的 中 断 
服务 程序 唤醒 RT《〈 实 时 ) 任务 后 ， 必 须要 等 待 前 面 一 个 Normal (普通 ) 任务 的 系统 调用 完成 ， 返 回 用 户 
空间 的 时 候 ，RTI 任 务 才能 切入 ;而 在 Linux 2.6 内 核 中 ，Normal 任 务 的 关键 部 分 “如 自 旋 锁 ) 结束 的 时 
候 ，RT 任 务 就 从 内 核 切 入 了 。 不 过 也 可 以 看 出 ，Linux 2.6 以 后 的 内 核 仍 然 存在 中 断 、 软 中 断 、 自 旋 锁 等 
原子 上 下 文 进程 无 法 抢占 执行 的 情况 ， 这 是 Linux 内 核 本 身 只 提供 软 实时 能 力 的 原因 。 
























关键 部 分 spain 关键 部 分 
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RT " 系统 调用 完成 RT 。 用 完成 | NFP 系统 调用 完成 
ER EA | 1 um ard 
普通 交通 
系统 调用 Lm mmu 系统 调用 — "uunc 
IRQI IRQI 
处 理 程序 m 处 理 程序 
IRQ2 IR Q2 
唤醒 RT 任务 唤醒 RT 任务 
RT 任务 运行 RT 任务 运行 


图 3.2” Linux 2.4 和 2.6 以 后 的 内 核 在 抢占 上 的 区 别 
3. 改 进 的 线程 模型 


Linux 2.6 以 后 版 本 中 的 线程 采用 NPTL (Native POSIX Thread Library， 本 地 POSIX 线 程 库 ) 模型 ， 操 


作 速 度 得 以 极 大 提高 ， 相 比 于 Linux 2.4 内 核 时 代 的 LinuxThreads 模 型 ， 它 也 更 加 遵循 POSIX 规 范 的 要 求 。 
NPTIL 没 有 使 用 LinuxThreads 模 型 中 采用 的 管理 线程 ， 内 核 本 映 也 增加 了 FUTEX (Fast Userspace Mutex, TA 
RAP AS ARS) ， 从 而 减 小 多 线程 的 通信 开销 。 


4. 虚 拟 内 存 的 变化 


从 虚拟 内 存 的 角度 来 看 ， 新 内 核 融 合 了 rmap〔〈 反 向 映射 ) 技术 ， 显 著 改 善 虚 拟 内 存在 一 定 大 小 负载 
下 的 性 能 。 在 Linux 2.4 中 ， 要 回收 页 时 ， 内 核 的 做 法 是 过 历 每 个 进程 的 所 有 PTE 以 判断 该 PTE 是 人 否 与 该 页 
建立 了 映射 ， 如 果 建 立 了 ， 则 取消 该 映射 ， 最 后 无 PTE 与 该 页 相关 联 后 才 回 收 该 页 。 在 Linux 2.6 后 ， 则 建 
立 反 向 上 映射， 可 以 通过 页 结构 体 快 速 寻 找到 页 面 的 映射 。 


NELLE 


Linux 2.6 厂 内 核 增 加 了 对 日 总 文件 系统 功能 的 文 持 ， 解 凑 了 Linux 2.4 版 本 在 这 方面 的 个 在。Linux 2.6 
版 内 核 在 文件 系统 上 的 关键 变 化 还 包括 对 扩展 属性 及 POSIX 标 准 访问 控制 的 文 持 。ext2/ext3/ext4 作 为 大 多 
数 Linux 系 统 灶 认 安 儿 的 文件 系统 ， 在 Linux 2.6 厂 内 核 中 增加 了 对 扩展 属性 的 文 持 ， 可 以 给 指定 的 文件 在 
MEARS AKA TUBE o 


在 文件 系统 方面 ， 当 前 的 研究 热点 是 基于 B 树 的 Btrfs，Btrfs 称 为 是 下 一 代 Linux 文 件 系 统 ， 它 在 扩展 
性 、 数 据 一 致 性 、 多 设备 管理 和 针对 SSD 的 优化 等 方面 都 优 于 ext4。 


高 级 Linux 音 频 体 系 结构 (Advanced Linux Sound Architecture, ALSA) BU f sas ze HH 
OSS (Open Sound System) 。ALSA 文 持 USB 音 频 和 MIDI 设 备 ， 并 文 持 全 双 工 重 放 等 功能 。 


7. 忌 线 、 设 备 和 驱动 模型 


在 Linux 2.6 以 后 的 内 核 中 ， 忌 线 、 设 备 、 驱 动 三 者 之 间 因 为 一 定 的 联系 性 而 实现 对 设备 的 控制 。 忆 线 
是 三 痢 联系 起 来 的 基础 ， 通 过 一 种 忌 线 类 型 ， 将 设备 和 驱动 联系 起 来 。 忆 线 类 型 中 的 match() 函数 用 来 
匹配 设备 和 张 动 ， 当 匹配 操作 完成 之后 吏 会 执行 驱动 程序 中 的 prope《〈) P. 


8. FB UR ey XE 


支持 高 级 配置 和 电源 接口 CAdvanced Configuration and Power Interface, ACPI) ， 用 于 调整 CPU 在 不 同 
的 负载 下 工作 于 不 同 的 时 钟 频 率 以 降低 功 耗 。 目 前 ，Linux 内 核 的 电源 管理 (PM) 相对 比较 完善 了 ， 包 括 
CPUFreq、CPUIdle、CPU 热 插 拔 、 设 备 运行 时 (runtime) PM、Linux 系 统 挂 起 到 内 存 和 挂 起 到 硬盘 等 全 套 
的 支持 ， 在 ARM 上 的 支持 也 较 完 备 。 


9. 联 网 和 IPSec 


Linux 2.6 内 核 中 加 入 了 对 IPSec 的 文 持 ， 删 除了 原来 内 核 内 置 的 HTTP 服务 右 khttpd， 加 入 了 对 新 的 
NFSv4 《网 络 文件 系统 ) 客户 机 /服务 万 的 文 择 ， 并 改进 了 对 IPv6 的 文 持 。 


10.H P ZB] EE 


Linux 2.64 38 55. f WRIA BE, AMA ILES ELA. SEE ATA BD og SCRE CM SR BE 
BS AS IR] ESSE PAPE BUE) 。 


在 设备 驱动 程序 方面 ，Linux 2.64858] T Linux 2.4 也 有 较 大 的 改动 ， 这 主要 表现 在 内 核 API 中 增加 了 不 
少 新 功能 《〈 例 如 内 存 池 ) 、sys 和 文件 系统 、 内 核 模 块 从 .o 杰 为 .ko、 张 动 模块 编译 方式 、 模 块 使 用 计数 、 模 
块 加 载 和 他 载 函数 的 定义 等 方面 。 


11.Linux 3.0 后 ARM 架 构 的 变更 


Linus Torvalds 在 2011 年 3 月 17 日 的 ARM Linux 邮 件 列 表 中 宣称 “this whole ARM thing is a f*cking pain in 
the ass”， 这 引发 了 ARM Linux 社 区 的 地 震 ， 随 后 ARM 社 区 进行 了 一 系列 重大 修正 。 社 区 必须 改变 这 种 局 
面 ， 于 是 PowerPC 等 其 他 体系 结构 下 已 经 使 用 的 FDT (Flattened Device Tree) 进入 到 了 ARM 社 区 的 视野 。 


此 外 ，ARM Linux 的 代码 在 时 钟 、DMA、pinmux、 计 时 堆 刻 度 等 诸多 方面 都 进行 了 优化 和 调整 ， 也 
删除 f arch/arm/mach-xxx/include/mach3k X: fF H3&, UA ze Linux 3.7 以 后 的 内 核 可 以 文 持 多 平台 ， 即 用 同 
一 份 内 核 镜 像 运 行 于 多 家 “SoC 公司 的 多 个 必 片 ， 实 现 “ 一 个 Linux 可 适用 于 所 有 的 ARM 系 统 ”。 


33 Linux 内 核 的 组 成 


3.3.1 Linux 内 核 源 代 人 码 的 目录 结构 
Linux 内 核 源 代 人 包含 如 下 目录 。 


arch: 包含 和 价 件 体系 结构 相关 的 代码， 每 种 平台 占 一 个 相应 的 目录 ， 如 i1386、arm、arm64、 
powerpc、mips 等 。Linux 内 核 目 前 已 经 文 持 30 种 左右 的 体系 结构 。 在 arch 目 录 下 ， 存 放 的 是 各 个 平台 以 及 
各 个 平台 的 导 片 对 Linux 内 核 进程 调度 、 内 存 管 理 、 中 断 等 的 文 持 ， 以 及 每 个 具体 的 goC 和 电路 板 的 板 级 
X RH. 


‘block: 块 设 备 驱动 程序 VO 调度 ，。 

‘crypto: 常用 加 密 和 散 列 算法 (如 AES、SHA 等 ) ， 还 有 一 些 压 缩 和 CRC 校 验算 法 。 
'documentation: 内 核 各 部 分 的 通用 解释 和 注释 。 

‘drivers: 设备 驱动 程序 ， 每 个 个 同 的 驱动 三 用 一 个 子 日 录 ， 如 char、block、net、mtd、i2c 等 。 
fs: 所 支持 的 各 种 文件 系统 ， 如 EXT、FAT、NTFS、JFFS2 等 。 

include: 头 文 件 ， 与 系统 相 关 的 头 文件 放置 在 include/linux 子 目录 下 。 

‘init: 内 核 初始 化 代码 。 著 名 的 start kernel O 就 位 于 init/main.c 文 件 中 。 

ipc: 进程 间 通 信 的 代码 。 


kernel: 内 核 最 核心 的 部 分 ， 包 括 进 程 调度 、 定 时 妖 等 ， 而 和 平台 相关 的 一 部 分 代码 放 在 archy/*kernel 
目录 下 。 


lib: 库 文 件 代 码 。 

mm: 内 存 管理 代码 ， 和 平台 相关 的 一 部 分 代码 放 在 arch/*/mm 目 录 下 。 
net: 网 络 相关 代码 ， 实 现 各 种 常见 的 网 络 协议 。 

‘scripts: 用 于 配置 内 核 的 脚本 文件 。 

‘security: 主要 是 一 个 SELinux 的 模块 。 


‘sound: ALSA、OSS 首 频 设 备 的 驱动 核心 代码 和 和 常 用 设备 驱动 。 


‘usr: 实现 用 于 打包 和 压缩 的 cpio 等 。 


include: 内 核 API 级 别 头 文件 。 


内 核 一 般 要 做 a 到 drivers 与 arch 的 软件 染 构 分 离 ， 驱 动 中 不 包含 板 级 信息 ， 让 驱动 跨 平 台 。 同 时 内 核 的 


通用 部 分 (如 kernel、 仿 、ipc、net 等 ) 则 与 具体 的 便 件 〈arch 和 drivers) 和 剥离 。 


3.32 Linux 内 核 的 组 成 部 分 


如 图 3.3 所 示 ，Linux 内 核 主 要 由 进程 调度 (SCHED) 、 内 存 管理 (MM)，、 虚 拟 文件 系统 CVES) 、 
网 络 接口 CNET) 和 进程 间 通 信 CPC) 5 个 子 系 统 组 成 。 


进程 调度 进程 间 通 信 
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1. 进 程 调度 


进程 调度 控制 系统 中 的 多 个 进程 对 CPU 的 访问 ， 使 得 多 个 进程 能 在 CPU 中 “微观 串 行 ， 宏 观 并 行 * 地 执 
行 。 进 程 调度 处 于 系统 的 中 心 位 置 ， 内 核 中 其 他 的 子 系统 都 依 顿 它 ， 因 为 每 个 子 系统 都 需要 挂 起 或 恢复 进 


FÉ. 


如 图 3.4 所 示 ，Linux 的 进程 在 几 个 状态 间 进 行 切 换 。 在 设备 驱动 编程 中 ， 妆 请 求 的 资源 不 能 得 到 满足 
时 ， 张 动 一 般 会 调度 其 他 进程 执行 ， 并 使 本 进程 进入 睡眠 状态， 直到 和 它 请 求 的 资源 家 释放 ， 才 会 被 唤醒 而 
进入 就 弹 状态 。 睡 上 肪 分 成 可 中 靳 的 睡 虐 和 不 可 中 断 的 睡 虑 ， 两 者 的 区 别 在 于 可 中 断 的 睡 虐 在 收 到 信和 号 的 时 


INE. 


fork() 







资源 到 位 
收 到 信号 SIGCONT wake up interruptible() 
wake up() 或 收 到 信和 号 


TASK RUNNING 
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资源 到 位 
wake up() 
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深度 睡眠 


CPU 
等 待 资 源 到 位 占有 Ci 
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TASK INTERRUPTIBL 
浅 度 睡眠 








等 待 资源 到 位 


interruptible sleep on() 





schedule() 





schedule() 
schedule() 


ptrace() do exit() 
TASK STOPPED TASK ZOMBIE 
暂停 僵 死 


图 3.4 Linux 进 程 状态 转换 






完全 处 于 TASK_UNINTERRUPTIBLE 状 态 的 进程 甚至 都 无 法 被 “ 杀 死 ?， 所 以 Linux 2.6.26 之 后 的 内 核 
也 存在 一 种 TASK KILLABLE 的 状态 ， 它 等 于 “TASK WAKEKILLITASK UNINTERRUPTIBLE”, FJ LAM 


应 致 全 信号。 


在 Linux 内 核 中 ， 使 用 task_struct 结 构 体 来 插 述 进程 ， 访 结构 体 中 包含 反 述 该 进 程 内 存 资源 、 文 件 系 统 
资源 、 文 件 资源 、tty 资 源 、 信 号 处 理 等 的 指针 。Linux 的 线程 采用 轻 量 级 进程 模型 来 实现 ， 在 用 户 空间 通 
过 pthread create ©) API 创 建 线 程 的 时 候 ， 本 质 上 内 核 只 是 创建 了 一 个 新 的 task _struct， 并 将 新 task_struct 的 
所 有 资源 指针 部 指 同 创建 它 的 那个 task_struct 的 资源 指针 。 


绝 大 多 数 进程 (以 及 进程 中 的 多 个 线程 》 是 由 用 户 空间 的 应 用 创建 的 ， 当 它们 存在 底层 资源 和 硬件 访 
用 


问 的 需求 时 ， 会 通过 系统 调用 进入 内 核 空间 。 有 时 候 ， 在 内 核 编程 中 ， 如 下 需要 几 个 并 友 执 行 的 任务 ， 可 
以 局 动 内 核 线 程 ， 这 些 线程 没有 用 尸 空 间 。 局 动 内 核 线 程 的 函数 为 : 


pid t kernel threadtint (*Ln)Tvord *J),4 void varg; unsigned Long flags); 


2. 内 人 存 管理 


内 存 管 理 的 主要 作用 是 控制 多 个 进程 安全 地 共享 主 内 存 区 域 。 当 CPU 提供 内 存 管 理 单 元 OMMU) 
时 ，Linux 内 存 管理 对 于 每 个 进程 完成 从 虚拟 内 存 到 物理 内 存 的 转换 。Linux 2.6 引 入 了 对 无 MMU CPU 的 文 


持 。 


如 多 3.5 所 示 ， 一 般 而 言 ，32 位 处 理 豆 的 Linux 的 每 个 进程 于 有 4GB 的 内 存 空 间 ，0~3GB 属 于 用 户 罕 
间 ，3~4GB 属 于 内 核 空 间 ， 内 核 空 间 对 稍 规 内 存 、LILO 设 备 内 存 以 及 高 端 内 存 有 不 同 的 处 理 方式 。 当 然 ， 
内 核 空间 和 用 户 空 间 的 具体 界限 是 可 以 调整 的 ， 在 内 核 配 置 选 项 Kernel Features Memory split 下 ， 可 以 议 
置 界限 为 2GB 或 者 3GB。 


虚拟 地 址 空间 的 内 核 空间 部 分 (1GB) 


进程 18 的 虚 | | 进程 2# 的 虚 
拟 地 址 空间 || 拟 地 址 空间 
的 用 户 空 间 的 用 户 空 间 
部 分 (3GB ) 部 分 (3GB ) 





图 3.5 ”Linux 进 程 地 址 空间 


如 图 3.6 所 示 ，Linux 内 核 的 内 存 管 理 总 体 比 较 庞 大 ， 包 含 底层 的 Buddy 算 法 ， 它 用 于 管理 每 个 页 的 占 
用 情况 ， 内 核 空 间 的 slab 以 及 用 户 空间 的 C 库 的 二 次 管理 。 另 外 ， 内 核 也 提供 了 页 缓存 的 支持 ， 用 内 存 来 
绥 存 磁盘 ，per-BDI flusher 线 程 用 于 刷 回 脏 的 页 缓存 到 磁盘 。Kswapd (交换 进程 》 则 是 Linux 中 用 于 页 面 回 
收 ( 包 括 fle-backed 的 页 和 匿名 页 〉 的 内 核 线程 ， 它 采用 最 近 最 少 使 用 (LRU) 算法 进行 内 存 回收 。 
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图 3.6 ”Linux 内 存 管 理 
3. 虚 拟 文 件 系统 


如 图 3.7 所 示 ，Linux 虚 拟 文 件 系 统 隐 着 了 各 种 便 件 的 具体 细 广 ， 为 所 有 设备 提供 了 统一 的 接口 。 而 
且 ， 它 独立 于 各 个 具体 的 文件 系统 ， 是 对 各 种 文件 系统 的 一 个 抽象 。 它 为 上 层 的 应 用 程序 提供 了 统一 的 
vfs read O . vfs write O 等 接口 ， 并 调用 具体 撒 层 文件 系统 或 者 设备 驱动 中 实现 的 fle_operations 结 构 体 
的 成 员 函 效 。 


用 户 空间 


应 用 程序 







内 核 空间 虚拟 文件 系统 
图 3.7 Linux ie SCE ARR 
4. 网 络 接口 


网 络 接口 提供 了 对 各 种 网 络 标准 的 存 取 和 各 种 网 络 便 件 的 文 持 。 如 图 3.8 所 示 ， 在 Linux 中 网 络 接口 可 
分 为 网 络 协议 和 网 络 张 动 程 序 ， 网 络 协议 部 分 负责 实现 每 一 种 可 能 的 网 络 传输 协议 ， 网 络 设备 张 动 程序 负 
责 与 便 件 设备 通信 ， 每 一 种 可 能 的 使 件 设备 都 有 相应 的 设备 张 动 程序 。 


网 络 应 用 程序 用 户 空 间 
内 核 空间 
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网 络 设备 


13.8 Linux 网络 体系 结构 


Linux 内 核 支持 的 协议 栈 种 类 较 多 ， 如 Internet、UNIX、CAN、NEFC、Bluetooth、WiMAX、IDA 等 ， 
上 层 的 应 用 程序 统一 使 用 套 接 字 接 口 。 


EFE RD SCREREREZL IRIS fH, Linux Sc epee tele i Ea DU]. TU foe EE. SSA. IHE 
BA). uH. UNIXINB RTS, LEAL A Be PETE. 4 OUR E FEWER. XERÉDRIBS BIZ Ie 
递 。 在 实际 的 Linux 应 用 中 ， 人 们 更 多 地 趋向 于 使 用 UNIX 域 套 接 字 ， 而 不 是 System V IPC 中 的 消息 队列 等 
机 制 。Android 内 核 则 新 增 了 Binder 进 程 间 通 信 方 式 。 


Linux 内 核 $5 个 组 成 部 分 之 加 的 依赖 关系 如 下 。 


进程 调度 与 内 存 管理 之 间 的 关系 : 这 两 个 子 系 统 互相 依赖 。 在 多 程序 环境 下 ， 程 序 要 运行 ， 则 必须 
为 之 创建 进程 ， 和 而 创建 进程 的 第 一 件 事 情 ， 束 古 将 程序 和 数据 装 入 内 丰 。 


ERI a SAA PEIN A: 进程 间 通 信子 系统 要 依赖 内 存 定 理 文 持 共 至 内 存 退 信和 机制， 这 种 机 
制 允 许 两 个 进程 除了 拥有 上 自己 的 私有 空间 之 外 ， 还 可 以 存 取 共同 的 内 存 区 域 。 


虚拟 文件 系统 与 网 络 接 口 之 则 的 关系 : 虚拟 文件 系统 利用 网 络 接口 文 持 网 络 文件 系统 (NFS) ， 也 
利用 内 存 管理 文 持 RAMDISK 设 备 。 


内存 管理 与 虚拟 文件 系统 之 间 的 关系 : 内 存 管理 利用 虚拟 文件 系统 文 持 交换 ， 交 换 进 程 定期 由 调度 
程序 调度 ， 这 也 是 内 存 宫 理 依赖 于 进程 调度 的 原因 。 当 一 个 进程 存 取 的 内 存 映 射 被 换 出 时 ， 内 人 存 宫 理 同 虚 
拟 文 件 系统 及 出 请 求 ， 同 时 ， 挂 起 当前 正在 运行 的 进程 。 


除了 这 些 依 赖 天 系 外 ， 内 核 中 的 所 有 子 系统 还 要 依赖 于 一 些 共 同 的 资源 。 这 些 资 源 包 括 所 有 子 系 统 虱 
用 到 的 API， 如 分 配 和 释放 内 存 空间 的 函数 、 输 出 竖 各 或 蚀 误 消 居 的 孙 数 及 系统 提供 的 调试 接口 等 。 


3.3.3 LinuxA 21H SAP eal 


现代 CPU 内 部 往往 实现 了 不 同 操作 模式 〈 级 别 ) ， 不 同 模式 有 不 同 功能 ， 高 层 程序 往往 不 能 访问 低级 
功能 ， 而 必须 以 某 种 方式 切换 到 低级 模式 。 


例如 ，ARM 处 理 郝 分 为 7 种 工作 模 陈 。 


HPR (usr) : 六 多 数 应 用 程序 运行 在 用 户 模 式 下 ， 当 处 理 规 运行 在 用 户 模 陈 下 时 ， 霖 芋 被 体 护 
的 系统 资源 是 不 能 态 问 的 。 


RPR ig) : 用 于 局 速 数据 传输 或 通道 处 理 。 

:外 部 中 断 模 式 〈irq) : 用 于 通用 的 中 断 处 理 。 

管理 模式 (sve) : 操作 系统 使 用 的 保护 模式 。 

:数据 访问 中 止 模式 CabO : 当 数 据 或 指令 预 取 中 止 时 进入 该 模式 ， 可 用 于 虚拟 存储 及 存储 保护 。 
系统 模式 (sys) : 运行 具有 特权 的 操作 系统 任务 。 


ARE SUAS FIERI CundD : 当 林 定义 的 指令 执行 时 进入 二 模 式 ， 可 用 于 文 持 便 件 协 处 理 鼎 的 软件 
fi. 


ARM Linux 的 系统 调用 实现 原理 是 采用 Swi 软 中 断 从 用 户 〈usr) 模式 陷入 管理 模式 (sve) 。 


又 如 ，x86 处 理 需 包 侣 4 个 不 同 的 特权 级 ， 称 为 Ring 0~Ring 3。 在 Ring0 下 ， 可 以 执行 特权 级 指令 ， 对 
任何 IO 设备 都 有 访问 权 等 ， 而 Ring3 则 被 限制 很 多 操作 。 


Linux 系 统 可 充分 利用 CPU 的 这 一 便 件 特性 ， 但 它 只 使 用 了 两 级 。 在 Linux 系 统 中 ， 内 核 可 进行 任何 操 
作 ， 而 应 用 程序 则 被 芙 止 对 人 硬件 的 直接 访问 和 对 内 存 的 未 授权 访问 。 人 例如， 在 使 用 x86 处 理 硕 ， 则 用 户 代 
但 运行 在 特权 级 3， 而 系统 内 核 代 但 则 运行 在 特权 级 0。 


由 核 空 间 和 用 户 空 间 这 两 个 名 词 用 来 区 分 程序 执行 的 两 种 不 同 状态， 它们 便 用 不 同 的 地 址 空间 。 
Linux 只 能 通过 系统 调用 和 使 件 中 断 完成 从 用 户 空 间 到 内 核 空 间 的 控制 转移 。 


3.4 Linux 内 核 的 编 详 及 加 载 
3.4.1 Linux 内 核 的 编译 


Linux 驱 动 开 发 者 需要 牢固 地 掌握 Linux 内 核 的 编译 方法 以 为 艇 入 式 系 统 构建 可 运行 的 Linux 操 作 系 统 
上 映像。 在 编译 内 核 时 ， 需 要 配置 内 核 ， 可 以 使 用 下 面 命令 中 的 一 个 : 





#make config (基于 文本 的 最 为 传统 的 配置 界面 ， 不 推荐 使 用 ) 
#make menuconfig (基于 文本 菜单 的 配置 界面 》 

#make xconfig (要 求 QT 被 安装 ) 

#make gconfig (要 求 GTK+ 被 安装 ) 


在 配置 Linux 内 核 所 使 用 的 make config. make menuconfig、make xconfig 和 make gconfig 这 4 种 方式 中 ， 


最 值得 推荐 的 是 make menuconfig， 它 不 依赖 于 QT 或 GTK+， 且 非常 直观 ， 对 /home/baohua/develop/linux 中 
HJ Linux 4.0-rcl 内核 运行 make ARCH=arm menuconfig 后 的 界面 如 图 3.9 所 示 。 
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图 3.9 Linux 内核 编译 配置 


内 核 配置 包含 的 条 目 相 当 多 ，arch/arnmyconfigs/xxx_ defconfig 文 件 包 全 了 许多 电路 板 的 默认 配置 。 只 需 
Jmake ARCH=arm xxx defconfig 了 驶 可 以 为 xxx 开 发 板 配置 内 核 。 


编译 内 核 和 柑 块 的 方法 是 : 


make ARCH-arm zlmage 
make ARCH-arm modules 


上 上述 命令 中 ， 如 果 ARCH=arm 已 经 作为 环境 变量 导出 ， 则 不 再 需要 在 make 命 令 后 书写 该 选项 。 执 行 完 
述 命 令 后 ， 在 涯 代码 的 根 目 录 下 会 得 到 未 压缩 的 内 核 映 像 vmlinux 和 内 核 符 号 表 文 件 System.map， 在 
archyarmy/boot/ 目 录 下 会 得 到 压缩 的 内 核 映 像 zImage， 在 内 核 各 对 应 目录 内 得 到 选中 的 内 核 模 块 。 


Linux 内 核 的 配置 系统 由 以 下 3 个 部 分 组 成 。 
‘Makefile: 分 布 在 Linux 内 核 源 代 公 中 ， 定 义 Linux 内 核 的 编译 规则 。 


-配置 文件 (Kconfig〉: 给 用 户 提 供 配 置 选择 的 功能 。 


-配置 工具 : 包括 配置 命令 解释 器 〈 对 配置 脚本 中 使 用 的 配置 命令 进行 解释 ) 和 配置 用 户 界 面 〈 提 供 
字符 界面 和 图 形 界 面 ) 。 这 些 配置 工具 使 用 的 都 是 脚本 语言 ， 如 用 TeVITKE、Perl 等 。 


使 用 make config. make menuconfig 等 命令 后 ， 会 生成 一 个 .config 配 置 文件 ， 记 录 哪 些 部 分 被 编 详 入 内 
核 、 哪 些 部 分 和 伏 编 详 为 内 核 模块 。 


运行 make menuconfig 等 时 ， 配 置 工具 痛 先 分 析 与 体系 结构 对 应 的 /arch/xxx/Kconfig 文 件 (xxx 即 为 传 入 
的 ARCH 参 数 ) ，/arch/xxx/Kconfig 文 件 中 除 本 身 包含 一 些 与 体系 结构 相关 的 配置 项 和 配置 某 单 以 外 ， 还 通 
过 source 语 句 引 入 了 一 系列 Kconfig 文 件 ， 而 这 些 Kconfig 又 可 能 再 次 通过 source 引 入 下 一 层 的 Kconfig， 配 置 
工具 依据 Kconfig 包 含 的 业 单 和 条 目 即 可 描绘 出 一 个 如 图 3.9 所 示 的 分 层 结 构 。 


3.4.2  KconfigAll Makefile 


在 Linux 内 核 中 增加 程序 需要 完成 以 下 3 项 工作 。 
:将 编写 的 源 代 码 复制 到 Linux 内 核 源 代码 的 相应 目录 中 。 
在 目录 的 Kconfig 文 件 中 增加 关于 新 源 代 码 对 应 项 目的 编译 配置 选项 。 
在 目录 的 Makefile 文 件 中 增加 对 新 源 代 码 的 编 详 条 目 。 
1. 实 例 引 导 : TTY PRINTK 字 符 设 备 


在 讲解 Kconfig 和 Makefile 的 语法 之 前 ， 我 们 先 利用 两 个 简单 的 实例 引导 读者 对 其 建 并 对 具 初 步 的 认 


首先 ， 在 drivers/char 目 录 中 包含 了 TTY PRINTK 设 备 驱 动 的 源 代码 drivers/char/ttyprintk.c。 而 在 该 目录 
的 Kconfig 文 件 中 包含 关于 TTY_PRINTK 的 配置 项 : 


config TTY PRINTK 

tristate "TTY driver to output user messages via printk" 
depends on EXPERT && TTY 
default n 

=== ei pee 

If you say Y here, the support for writing user messages (i.e. 
console messages) via printk is available. 

The feature is useful to inline user messages with kernel 
messages. 

In order to use this feature, you should output user messages 
to dev/ttyprintk or redirect console to this TTY. 

If unsure, say N. 


上 述 Kconfig 文 件 的 这 段 脚本 意味 着 只 有 在 EXPERT 和 TTY 被 配置 的 情况 下 ， 才 会 出 现 TTY PRINTK 配 
置 项 ， 这 个 配置 项 为 三 态 《〈 可 编 详 入 闵 核 ， 可 不 编 详 ， 也 可 编 详 为 内 核 模 块 ， 选 项 分 别 
ANY”. NAM”) ， 腕 单 上 显示 的 字符 串 为 “TTY driver to output user messages via printk”, “help” Ja mA 
内 容 为 帮助 信息 。 图 3.10 显 示 了 了 TTY PRINTKS£H V K helpfE3e fj make menuconfig 时 的 情况 。 


除了 布尔 《bool) 配置 项 外 ， 还 存在 一 种 布尔 配置 选项 ， 它 意味 看 要 么 纺 详 入 有 内核， 要么 不 编 详 ， 选 
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CONFIG TTY PRINTK: 


If you say Y here, the support for writing user messages (i.e. 
console messages) via printk is available. 


The feature is useful to inli user messages with kernel 
mes: A 

In order to use thts feature, yo should output user messages 
to /dev/ttyprintk or redirect sole to this TTY. 


If unsure, say N. 


Symbo l: dem oe [=n] 
us 

onpt: Tv drt ver to output user messages via printk 
te 


> De vice Drive 

-> ree devices 
Defined at d r/Kconfig:51 
Depends on: EXPERT [ey] && TTY [=y] 





3.10 ”Kconfig 采 单项 与 help 信 息 
在 目录 的 Makefile 中 关于 TTY _PRINTK 的 编译 项 为 : 


obj-$(CONfiG TTY PRINTK) += ttyprlWEk.o 


述 脚本 意味 看 如 果 TIY PRINTKHBEG 2 ize Dn pce PEAY BM”, Blobj-$ CCONFIG TTY PRINTK) 
等同 于 obj-y 或 obj-m， 则 编 详 ttyprintk.c， 选 “Y*" 时 会 直接 将 生成 的 目标 代码 连接 到 内 核 ， 选 “^M”* 时 则 会 生成 
模块 ttyprintk.ko; 如 果 TTY_PRINTK 配 置 选项 被 选择 为 “-N”， 即 obj-$ CCONFIG TTY PRINTKO 等 同 于 


obj-n， 则 不 编 详 ttyprintk.c。 


一 般 而 言 ， 驱 动 开 发 者 会 在 内 核 源 代码 的 drivers 目 录 内 的 相应 子 目 录 中 增加 新 设备 驱动 的 源 代码 或 者 
在 arch/arm/mach-xxx 下 狐 增 加 板 级 支持 的 代码 ， 同 时 增加 或 修改 Kconfig 配 置 脚本 和 Makefile 脚 本， 具体 执 
行 完 全 仿照 上 述 过 程 即 可 。 


2.Makefile 


这 里 主要 对 内 核 源 代码 各 级 子 目 录 中 的 kbuild CARA IPE A St) Makefile 进 行 简 日 介绍 ， 这 部 分 是 
内 核 模 块 或 设备 驱动 开发 者 最 和 津 接 触 到 的 。 


Makefile 的 语法 包括 如 下 几 个 方面 。 

(1) 目标 定义 

目标 定义 就 是 用 来 定义 哪些 内 容 要 作为 模块 编译 ， 哪 些 要 编译 并 链接 进 内 核 。 
例如 : 


obj-y += foo.o 


表示 要 由 foo.c 或 者 foo.s 文 件 编译 得 到 foo.o 并 链接 进 内 核 〈 无 条 件 编译 ， 所 以 不 需要 Kconfig 配 置 选 
W) ， 而 obj-m 则 表示 该 文件 要 作为 模块 编译 。obj-n 形 式 的 目标 不 会 饭 编 详 。 


更 币 见 的 做 法 是 根据 make menuconfig 后 生成 的 config 文 件 的 CONFIG 和 变量 来 决定 文件 的 编译 方式 ， 
如 : 


obj-$(CONfiG ISDN) += isdn.o 
obj- (CONTIG ISDN PPP BSDCOMP) += isdn D5O0cOND.O 


除了 有 具有 obj- 形 式 的 目标 以 外 ， 还 有 lib-ylibrary 库 、hostprogs-y 主 机 程序 等 目标 ， 但 是 这 两 类 基本 都 应 
FA TERRE A A RAIS FP 


(20 多 文件 模块 的 定义 。 


最 简单 的 Makefile 仅 需 一 行 代 但 殉 够 了 了。 如 入 一 个 蛋黄 由 多 个 文件 组 成 ， 会 稍微 复杂 一 些 ， 这 时 候 应 
采用 模块 名 加 -y 或 -objs 后 级 的 形式 来 定义 模块 的 组 成 文件 ， 如 下 : 


# 
# Makefile for the linux ext2-filesystem routines. 
# 
obj-$(CONfiG EXT2 FS) += ext2.0 
ext2-v += balloc.o dir.o file.o fsync.o ialloc.o inode.o «X 
loctl.o namei.o superio symlink.o 
ext2-S(CONfiG EXT2 FS XATTR) T= XQUCDE.O Xattr USer.o XQULE. LIUSbDed.o 
ext2-$(CONfiG EXT2 FS POSIX ACL) += acl.o 
ext2-$ (CONTIG EXT2 FS SECURITY) t= Racer SScurity.o 
ext2-$(CONfiG EXT2 FS XIP) += xip.o 


模块 的 名 字 为 ext2， 由 balloc.o、diro、file.o 等 多 个 目标 文件 最 终 链 接生 成 ext2.o 直 至 ext2.ko 文 件 ， 并 且 
是 否 包 括 xattr.o、acl.o 等 则 取决 于 内 核 配 置 文件 的 配置 情况 ， 例 如 ， 如 果 CONFIG EXT2 FS POSIX ACL 
伏 选 择 ， 则 编译 acl.c 得 到 acl.o 并 最 终 链 接 进 ext2 。 


(3) 目录 层次 的 欠 代 
如 下 例 : 
obj-S(CONfiG EXT2 FS) += ext2/ 
"4CONFIG EXT2 FS 的 值 为 y 或 m 时 ，kbuild 将 会 把 ext2 目录 列 入 向 下 迭代 的 目标 中 。 
3.Kconfig 
内 核 配 置 脚本 文件 的 语法 也 比较 简单 ， 主 要 包括 如 下 几 个 方面 。 
(1) 配置 选项 


大 多 数 内 核 配置 选项 都 对 应 Kconfig 中 的 一 个 配置 选项 (config) : 


config MODVERSIONS 
bool "Module versioning support" 
help 
Usually, you have to use modules compiled with your kernel. 
Saying Y here makes it ... 


“config” 关 键 字 定 义 新 的 配置 选项 ， 之 后 的 几 行 代码 定义 了 该 配 置 选 项 的 属性 。 配 普选 项 的 属性 包括 
关 型 、 数 据 了 范围、 和 输入 皖 示 、 依 顿 关 系 、 选 撞 关 系 及 帮助 信息 、 球 认 值 等 。 


每 个 配置 选项 都 必须 指定 类 型 ， 类 型 包括 bool、tristate、string、hex 和 int， 其 中 tristate 和 string 是 两 种 
其 本 类 型 ， 其 他 类 型 都 基于 这 两 种 基本 类 型 。 类 型 定义 后 可 以 皮 跟 输入 提示 ， 下 和 耐 两 段 脚 本 是 等 价 的 : 


bool “Networking support” 


和 


pool 
prompt "Networking support" 


-输入 提示 的 一 般 格式 为 : 
prompt «prompt» [if «expr»] 
其 中 ， 可 选 的 i 用 来 表示 该 提示 的 依赖 天 系 。 
SAHE HITE TUJ: 


default <expr> [if <expr>] 
GHAR A AS BC OT MAE, ACS 26 TH E EAE o 
依赖 天 系 的 格式 为 : 


depends on (或 者 requires) <expr> 


如 果 定 义 了 多 重 依 赖 关 系 ， 它 们 之 间 用 “&&” 间 隅 。 依 赖 关系 也 可 以 应 用 到 该 采 单 中 所 有 的 其 他 选项 
(同样 接受 i 二 达 式 ) 和 内， 下面 两 段 脚 本 是 等 价 的 : 


bool "foo" if BAR 
default y if BAR 


和 


depends on BAR 
DOOIL "ToO" 
default y 


选择 关系 也 称 为 及 问 依 赖 天 系 ) 的 格式 为 : 

select «symbol» [if <expr>] 
A 如 末 选 择 了 B， 则 在 A 被 选中 的 情况 下 ，B 目 动 被 选中 。 
BRE E AS EVA: 

range «symbol» «symbol» [if <expr>] 


‘Keonfig Ff Wexpr (41K x0) 定义 为 : 


<expr> ::= <symbol> 
<symbol> '=' <symbol> 
«symbol» '!z' «symbol» 
ra <expr> IL 
'I' <expr> 
<expr> '&&' <expr> 
<expr> '||' <expr> 


itz Ul, exprze symbol. P"^^symbolfHSe. P§~Ssymbol S EJ expri IME, dE. 5E mue 
成 。 而 symbol 分 为 两 类 ， 一 类 是 由 沫 单 入 口 配 置 选项 定义 的 非常 数 symbol， 另 一 类 是 作为 expr 组 成 部 分 的 
常数 symbol。 比 如 ，SHDMA R8A73A4 是 一 个 布尔 配置 选项 ， 表 达 式 “ARCH R8A73A4&&SH DMAE! 
=n” 有 暗示 只 有 当 ARCH R8A73A4 被 选中 且 SH DMAE 没 有 被 选中 的 时 候 ， 才 可 能 出 现 这 个 
SHDMA R8A73A4. 


config SHDMA R8A73A4 
def bool y 
depends on ARCH R8A73A4 && SH DMAE !- n 


:为 int 和 hex 关 型 的 选项 设置 可 以 接受 的 输入 值 范围 ， 用 户 只 能 输入 大 于 等 于 第 一 个 symbol， 且 小 于 等 
于 第 二 个 symbol 的 值 。 


-帮助 信息 的 格式 为 : 


help Qx--ehebpe--)5 
开始 


结束 


帮助 信息 完全 靠 文本 缩 进 识别 结束 。“--help--- ”和 '“help” 在 作用 上 没有 区 别 ， 设 计 “---help--- 的 初衷 在 
于 将 文件 中 的 配置 逻辑 与 给 开 友 人 员 的 提示 分 开 。 


(2) SEHR. ER 


配置 选项 在 来 里 树 结构 中 的 位 置 可 由 两 种 方法 决定 。 第 一 种 方式 为 : 


menu "Network device support" 
depends on NET 
config NETDEVICES 


endmenu 


所 有 处 于 “menu” 和 “endmenu” 之 则 的 配置 选项 都 会 成 为 “Network device support’ MTK, MA, Pra 
子玉 时 (config〉 选 项 部 会 继承 父 采 单 (menu) WRIA, EGY, “Network device support” X$} NET” HY 1K 
赖 会 被 加 到 配置 选项 NETDEVICES 的 依赖 列表 中 。 


注意 : menu 后 面 跟 的 "Network device support” (MME THE, WAX VASA, BAAR 
3 种 不 同 的 状态 。 这 是 它 和 config 的 区 列 。 


为 一 种 方式 古 退 过 分 析 依 赖 关 系 生 成 及 蛙 结 构 。 如 末末 蛙 项 在 一 定 程 度 上 依赖 于 前 面 的 选项 ， 它 就 能 
成 为 设 选 项 的 于 采 蛙 。 如 来 父 选 项 为 “m9”， 子 选项 个 可见 ; WRAK, FAHS. Aan: 


config MODULES 
bool "Enable loadable module support" 
config MODVERSIONS 
bool "Set version information on all module symbols" 
depends on MODULES 
comment "module support disabled" 
depends on !MODULES 


MODVERSIONS 和 直接 依 赖 MODULES， 只 有 MODULES 不 为 “mn” 时， 该 选项 才 可 见 。 


除 此 之 外 ，Kconfig 中 还 可 能 使 用 “choices...endchoice”、“comment”、“if..endif* 这 样 的 语法 结构 。 其 
中 “choices...endchoice” 的 结构 为 : 


choice 

<choice options> 
«chorce block> 
endchoice" 


它 定义 一 个 选择 群 ， 其 接受 的 选项 (choice options) 可 以 是 前 面 描述 的 任何 属性 ， 例 如 ，LDD6410 的 
VGA LH A) HE FY VA 1024x768 2K 4 800x600, Edrivers/video/samsung/Kconfig# ize X. J UN F choice: 


choice 
depends on EB 55€ VGA 
prompt "Select VGA Resolution for S3C Framebuffer" 
default FB S3C VGA 1024 768 
contig. EB SoC VGA 1024 “Tos 
bool "1024*768860Hz" 
=-=- ne = 
TBA 
config FB S3C VGA 640 480 
bool "640*480Q060Hz" 
ce-hnelpe-- 
TBA 
endchoice 


上 述 例子 中 ，prompt 配 合 choice 起 到 提示 作用 。 


用 Kconfig 配 置 脚本 和 Makefile 脚 本 编写 的 更 详细 信息 ， 可 以 分 列 参 见 内 核 文档 Documentation 目 录 内 的 


kbuild-T- H 3€ F HKconfig-language.txt#ll Makefiles.txt X. 4 © 
4. 应 用 实例 : 在 内 核 中 新 增 驱 动 代 人 码 目 录 和 和 子 上 日 录 


下 面 来 看 一 个 综合 实例 ， 假 设 我 们 要 在 内 核 源 代码 drivers 目 录 下 为 ARM 体 系 结构 靳 增 如 下 用 于 test 
driver 的 树 形 目录 : 


[ee 
| 
[== Test Prog 

pes “Cesk, OUO 


在 内 核 中 增加 目录 和 子 目 了 永 时 ， 我 们 需 为 相应 的 新 增 目 孙 创建 Makefile 和 Kconfig 文 件 ， 而 新 增 目 隶 的 
父 目 录 中 的 Kconffg 和 Makefile 也 需 修 改 ， 以 便 新 增 的 Keconffig 和 Makefile 能 被 引用 。 


在 新 增 的 test 目 录 下 ， 应 设 包 含 如 下 Kconfig 文 件 : 


it 
# TEST driver configuration 
# 
menu "TEST Driver " 
comment " TEST Driver" 
contig CONIC TEST 
bool "TEST Support " 
contig CONILG LIEST USER 
tristate "TEST user-space interface" 
depends on CONfiG TEST 
endmenu 


H T test driver 对 于 内 核 来 说 是 靳 功能 ， 所 以 需 自 完 创 建 一 个 采 蛙 TEST Driver。 然 后 ， 显 示 “TEST 
support”, SFH P RIE; E PRAH EAE TEST Driver， 如 果 选 择 了 (CONFIG TEST=y) ， 
则 进一步 受 示 子 功能 : 用 己 接 口 与 CPU 功能 文 持 : 由 于 用 户 接 口 功能 可 以 被 编译 成 内 核 模 块 ， 所 以 这 里 的 
询问 语句 使 用 了 tristate。 


为 了 使 这 个 Kconfig 能 起 作用 ， 修 改 arch/arm/Kconfig 文 件 ， 增 加 : 


source "drivers/test/Kconfig" 


脚本 中 的 source 意 味 看 引用 狐 的 Kconfig 文 件 。 
在 新 增 的 test 目 录 下 ， 应 该 包含 如 下 Makefile 文 件 : 


# drivers/test/Makefile 

it 

# Makefile for the TEST. 

it 

obg-o(CONIIG TEST) += Téest.0 test queuse.o Test clre6nt.o 
obj-$(CONfiG TEST USER) += test ioctl.o 
objyeo(CcONPIOG PROC ES) += test proceo 
obj-$(CONfiG TEST CPU) += cpu/ 


该 脚本 根据 配置 变量 的 取 值 ， 构 建 obj-* 列 表 。 由 于 test 目 录 中 包含 一 个 子 日 录 cpu， 因 此 当 
CONFIG_TEST_CPU=y 时 ， 逢 要 将 cpu 目 录 加 入 列表 中 。 


test H xF cpu f Ho t maA uH P Makefile: 


# drivers/test/test/Makefile 

# 

# Makefile for the TEST CPU 

# 

obg-9 (CONES TEST CPU) += CPD 


为 了 使 得 编译 命令 作用 到 能 够 整个 test 目 录 ，test 目 录 的 父 目 录 中 Makefile 也 需 新 增 如 下 脚本 : 
obj-$(CONfiG TEST) += test/ 


在 drivers/Makefile 中 加 入 obj-$ (CONFIG TEST) +=test， 使 得 用 户 在 进行 内 核 编 详 时 能 够 进入 test 目 
SK 


增加 了 Kconfig 和 Makefile 之 后 的 新 test 树 形 目录 为 : 


pner Cpu 

|. sec DS 

| -- Makefile 
[== test.c 
| Desc clDembc 
pse Test TOC 
[== Test. Proce 
l= Lost e a e 
|-- Makefile 
a= UJNCOINETG 


3.4.3 Linux 内 核 的 引导 


引导 Linux 系 统 的 过 程 包括 很 多 阶段 ， 这 里 将 以 引导 ARM Linux 为 例 来 进行 讲解 〈 见 图 3.11〉。 一 般 的 
SoC 内 和 骸 入 了 bootrom， 上 电 时 bootrom 运 行 。 对 于 CPU0 而 言 ，bootrom 会 去 引导 bootloader， 而 其 他 CPU 则 
判断 目 己 是 不 是 CPU0， 进 入 WEFI 的 状态 等 竺 CPU0 来 唤醒 它 。CPU0 引 导 bootloader，bootloader 引 Linux Ñ 
核 ， 在 内 核 启 动 阶 段 ，CPU0 会 发 中 断 唤 醒 CPU1， 之 后 CPU0 和 CPU1 都 投入 运行 。CPU0 导 致 用 户 空间 的 
init 程 序 补 调用，init 程 序 再 派生 其 他 进程 ， 铂 生出 来 的 进程 再 铂 生 其 他 进程 。CPU0 和 CPU1 共 担 这 些 负 
dX, XETI PRIJE 


CPUO CPU 


bootrom bootrom 
bootloader 












init 


图 3.11 ARM 上 的 Linux 引 导 流 程 


bootrom% SoC) 家 根据 目 身 情况 编写 的 ， 目 前 的 SoC 一 般 都 具有 从 SD、eMMC、NAND、USB 等 
介质 启动 的 能 力 ， 这 证 明 这 些 bootrom 内 部 的 代 人 具备 证 SD、NAND 等 能 力 。 


黄 入 式 Linux 领 域 最 著名 有 的 bootloader 是 U-Boot， 其 代码 仓库 位 于 http://git.denx.de/u-boot.git/。 早 前 ， 
bootloader 和 需要 将 局 动 信息 以 ATAG 的 形式 封 锋 ， 并 且 把 ATAG 的 地 址 填 元 在 2 寄存 右 中 ， 机 型 号 填 元 在 rl1 窜 
Pas FP, EULA X *4Documentation/arm/booting. 7EARM Linux x ftii (Device Tree) Ja, bootloader 
则 需要 把 dtb 的 地 址 放 入 I2 寄 存 器 中 。 当 然 ，ARM Linux 也 支持 直接 把 dtb 和 zImage 绑 定 在 一 起 的 模式 〈 内 
核 ARM APPENDED DTB 选 项 “Use appended device tree blob to zImage”) , iXfEr2 $9 fF asa A EL i BIR 
dtb 地 址 了 。 


类 似 zImage 的 内 核 镜 像 实际 上 是 由 没有 压缩 的 解压 算法 和 家 压缩 的 内 核 组 成 ， 所 以 在 bootloader 中 入 
ZImage 以 后 ， 它 目 身 的 解压 缩 逻辑 惑 把 内 核 的 贷 像 解压 缩 出 来 了 了。 天 于 内 核 司 动 ， 与 我 们 关系 比较 大 的 部 
分 是 每 个 平台 的 设备 回调 函数 和 设备 属性 信息 ， 它 们 通常 包装 在 DT MACHINE START 和 
MACHINE END 之 间 ， 包 含 reserve () . map io () 、init machine () 、init late © 、smp 等 回调 函数 或 
者 属性 。 这 些 回调 函数 会 在 内 核 司 动 过 程 中 被 调用 。 后 续 音 节 会 进一步 介绍 。 


FAP ZH Mint = HAB busybox init、SysVinit、systemd 和 等 ， 它 们 的 职 贡 类 似 ， 把 整个 系统 局 动 ， 
取 后 形成 一 个 进程 树 ， 比 如 Ubuntu 上 运行 的 pstree: 


init——NetworkManager——dhclient 
| L2*[ {NetworkManager} ] 
LVBoxSVC-,-VirtualBox—-29* [ {VirtualBox} ] 
| L11*[{VBoxSVC} ] 
I-VBoxXPCOMIPCD 
l-accounts-daemon-—(accounts-daemon] 
l-acpid 
l-apache2-——5* [apache2] 
l-at-spi-bus-laun-—Z2*[íat-spi-bus-laun]] 
atd 
-avahi-daemon—-avahi-daemon 
I-bluetoothd 
I-cgrulesengd 
I-colord-—2*[ícolord]] 
I-console-kit-dae-——64*[(console-kit-daej]] 
I-cpu£reqd-———(cpufreqd) 
I-cron 
I-cupsd 
I-2* [dbus-daemon] 
I-dbus-launch 
I-dconf-service-—2*[ídconf-service]] 
I-dHdnsmasq 


3.5 Linux FICHIER A, 


3.5.1  LinuxZhfi XU 


Linux 有 独特 的 编 合 风格 ， 在 内 核 源 代码 下 存在 一 个 文件 Documentation/CodingStyle， 进 行 了 比较 评 细 
LA) FH IAS o 


Linuxte HIMA A Tt Al Windows FE FF Wan 4 J Tos RA ER] 09) AA a 5 12H TR KI IP IA 


在 Windows 程 序 中 ， 习 惯 以 如 下 方式 命名 宏 、 变 量 和 函数 : 











#define PI 3.1415926 /* HEKSREBSMURE */ 
int minValue, maxValue;  /* 变量 : 第 一 个 单词 全 小 写 ， 其 后 单词 的 第 一 个 字母 大 写 */ 
void SendData (void); /* RR: 所 有 单词 第 一 个 字母 都 大 写 */ 
这 种 命名 方式 在 程序 员 中 非常 局 行 ， 章 思 表 达 清 晰 且 避 免 了 铭 牙 利 法 的 及 和 肿 ， 单 词 之 间 通 过 首 字 母 大 


写 来 区 分 。 通 过 第 1 个 单词 的 首 字母 是 否 大 写 可 以 区 分 名 称 属 于 变量 还 是 属于 函数 ， 而 看 到 整 串 的 大 写字 
母 可 以 断定 为 宏 。 实 际 上 ，Windows 的 命名 习惯 并 非 仅 限于 Windows 编 程 ， 许 多 领域 的 程序 开发 都 遵照 此 
习惯 。 


但 是 Linux 个 以 这 种 习惯 命名 ， 对 于 上 面 的 一 段 程序 ， 在 Linux 中 它 会 补 命 名 为 : 


#define PI 3.1415926 
int min value, max value; 
void Send Oatetvoe); 


在 上 述 命名 方式 中 ， 下 划 线 大 行 其 道 ， 不 按照 Windows 所 采用 的 用 首 字母 大 写 来 区 分 单词 的 方式 。 
Linux 的 命名 习惯 与 Windows 命 名 习惯 各 有 于 秋 ， 但 是 既然 本 书 和 本 书 的 谈 者 立足 于 编写 Linux 程 序 ， 代 人 三 
风格 理应 与 Linux 开 发 社区 保持 一 致 。 


Linux 的 代码 缩 进 使 用 “TAB?”。 
Linux 中 代码 括号 “人 和 ”的 使 用 原则 如 下 。 
1) 对 于 结构 体 、if/for/while/switch 语 句 ,，“f” 不 男 起 一 行 ， 例 如 : 


SULUCL Var data 4 
int len; 
char data[0]; 
); 
if (a == b) { 
C; 
ar 


a 


OF X LOT ae) 1 
Cr 
a; 


AD) - 
ll oi oll 


2) 如 有 末 计 、for 循 环 后 只 有 1 行 ， 不 要 加 “人 和 分 >， 例如 : 


| - 
NHAU: 


3) iffllelse7l H 的 情况 下 ， else 语 句 不 男 起 一 行 ， 例如 : 


LT (x == y) d 
} else if (x > y) { 
} else { 


} 


4) AF PRB, “SFE IT, BP UM: 


int add(int a, int b) 
{ 
return a+ b; 


} 


在 switch/case 语 名 方面 ，Linux 建 议 switch 和 case 对 齐 ， 例 如 : 


Switch (suffix) { 
case 'G': 
case 'g': 
mem <<= 30; 
break; 
case 'M': 
case 'm': 
mem ««- 20; 
break; 
case 'K': 
case 'k': 
mem <<= 107 
/* tell through wy 
default: 
break; 


} 


内 核 下 的 Documentation/CodingStyle 接 述 了 Linux 内 核对 编码 风格 的 要 求 ， 内 核 下 的 scripts/checkpatch.pl 
提供 了 1 个 检查 代码 风格 的 脚本 。 如 果 使 用 scripts/checkpatch.pl 检 查 包 含 如 下 代码 块 的 源 程序 : 


束 会 产生 “WARNING: braces{}are not necessary for single statement blocks” 的 警告 。 


另外 ， 请 注意 代码 中 空格 的 应 用 ， 壁 如 “for g—-—oo; ee xc 410, i) er" 


tjr p em ”者 是 空格 。 


在 工程 阶段 ， 一 般 可 以 在 SCM 软 件 的 服务 硕 病 使 能 pre-commit hook， 目 动 检 查 工 程 师 提交 的 代码 是 否 
符合 Linux 的 编码 风格 ， 如 果 不 符合 ， 则 自动 拦截 。git 的 pre-commit hook 可 以 运行 在 本 地 代码 仓库 中 ， 如 
Ben Dooks 完 成 的 一 个 版 本 : 


#!/bin/sh 


# 
# pre-commit hook to run check-patch on the output and stop any commits 
# that do not pass. Note, only for git-commit, and not for any of the 

# other scenarios 

# 


# Copyright 2010 Ben Dooks, <ben-linux@fluff.org> 

if git rev-parse --verify HEAD 2>/dev/null >/dev/null 

then 
against-HEAD 

else 
# Initial commit: diff against an empty tree object 
against-4b825dcóo42cb6eb9a060e54bf8d69288fbee4904 

fi 

git diff --cached Sagainst -- | ./scripts/checkpatch.pl --no-signoff - 


3.5.2 GNU C5ANSI C 


Linux E n] Hi JC VESRAEGNU C 编 详 茶 ， 它 建立 在 目 由 软件 基金 会 的 编程 许可 证 的 基础 上 ， 因 此 可 
以 目 由 友 布 。GNU C 对 标准 C 进 行 一 系列 扩展 ， 以 增强 标准 C 的 功能 。 


LEAKE Nee ke AA 
GNU C 人 允许 使 用 零 长 度数 组 ， 在 定义 变 长 对 象 的 头 结构 时 ， 这 个 特性 非常 有 用 。 例 如 : 


struct var data i 
int len; 
echar detarol]s 
E 


char data[0 AAA A CR Fee Pivar _ data 结构 体 实例 的 data[lindex] 成 员 可 以 访问 len 之 后 的 第 index 个 地 
址 ， 它 并 没有 为 data[] 数 组 分 配 内 存 ， 因 此 sizeof (struct var data) =sizeof Gint) 。 


假设 struct var_data 的 数据 域 束 保存 在 struct var_data 案 接 大 的 内 存 区 域 中 ， 则 通过 如 下 代码 可 以 退 历 这 
些 数 据 : 


STLUCE var data Ss; 


for (1 = 0; 1 < s.len; i+t) 
Printi" 023"; s.dacal a)? 


GNU C 中 也 可 以 使 用 1 个 变量 定义 数组 ， 例 如 如 下 代码 中 定义 的 “double x[n]": 


int marin (int argc, char *argvll) 
{ 
LOC. hy Wi = gargo) 
double x[nl; 
for (i = 0; i < n; i++) 
x[i] = 1; 
return OF 


2 caseYu, 


GNU Cx #¥case x...y 这 样 的 语法 ， 区 间 [x， 刁 中 的 数 都 会 满足 这 个 case 的 条 件 ， 请 看 下 面 的 代码 : 


switch (ch) { 


Case "Oy '9't GC == 1013 
break; 

Case Uueth ua UE Cc =a Ta” = 103 
break; 

case 'A'... 'F': c -= 'A' - 10; 
break; 


} 


代码 中 的 case'0'...'9' 等 价 于 标准 C 中 的 : 


“OY case TI": case '2'* case Tota case '4': 


case '5': case '6': case '7': case '8': case !'9': 
3.18 8] AE JAN 


GNU C 把 包含 在 括号 中 的 复合 语句 看 成 是 一 个 表达 式 ， 称 为 语句 表达 式 ， 它 可 以 出 现在 任何 允许 表 
达 式 的 地 方 。 我 们 可 以 在 语句 表达 式 中 使 用 原本 只 能 在 复合 语句 中 使 用 的 循环 、 局 部 变量 等 ， 例 如 : 
#define min t(type,x,y) \ 
(itype .. X —CUOOTJLYDe S = (Ys x< y X: y: ]) 
int La, 1b, minis 
float fa, Lb, mint; 


mini = Man Clint, 1a; LD)? 
Mint = min c(rloat, £a, fb); 


因为 重新 定义 了 xx 和 y 这 两 个 局 部 变量 ， 所 以 用 上 述 方式 定义 的 安 将 不 会 有 副作用 。 在 标准 C 
中 ， 对 应 的 如 下 安 则 会 产生 副作用 : 


#define min(x,y) ((x) « (y) (x) : (y)) 


代码 min 〈++ia，++ib) 会 展开 为 〈 (ia) < (Hb) (Ha): (+b) ) ， 传 入 宏 的 “参数 ”增加 
PX. 


4 typeof X $E F- 
typeof (x) EAJak xK, KE, a De typeof gr E X mini E: 


#define min (x,y) ( 
conet LYyYDpeort (x) _- 
CONSE. Typeot(y)} 
(void) (& x == & 
EAM (Xo: Yr 


OL uu ou 


我 们 不 需要 像 min t (type, x, y2 那个 宏 那样 把 type 传 入 ， 因 为 通过 typeof (x) ~ typeof Cy) 可 以 获 
得 type。 代 码 行 (void) (& x==& y) 的 作用 是 检查 x 和 y 的 类 型 是 否 一 致 。 


5. 可 变 参 数 宏 
标准 C 就 文 持 可 变 参 数 函 数 ， 意 味 着 函数 的 参数 是 不 固定 的 ， 例 如 printf〈) 函数 的 原型 为 : 
iut pene conse dude désumst ^ Suasumesblo ce is 
而 在 GNU C 中 ， 宏 也 可 以 接受 可 变数 目的 参数 ， 例 如 : 


#define pr debug(fmt,arg...) \ 
printk (fmt, ##arg) 


iX H arg ZR AARHUJZSS WUARSTRETERM, MESRAUKRS WZ lA) ME St argh, ER 


扩展 时 符 换 arg， 如 下 列 代码 : 
pr debug ("%s:%d", filename, line) 
SAT EN: 
printk("$s:%d", filename, line) 


使 用 ':% 入 ' 是 为 了 处 理 arg 不 代表 任何 参数 的 情况 ， 这 时 候 ， 前 面 的 逗号 就 变 得 多 余 了 。 使 用 '%#" 之 后 ， 
GNU C 预 处 理 需 会 丢弃 前 面 的 逗 亏 ， 这 样 ， 下 列 代 人 码 : 


pr debug ("success!\n") 


会 被 正确 地 扩展 为 : 


printk("success! Nn") 


而 不 是 : 
printk("success!\n",) 


这 正 征 我 们 希望 看 到 的 。 


6. 标 号 元 系 


标准 C 要 求 数 组 或 结构 体 的 初始 化 值 必 须 以 固定 的 顺序 出 现 ， 在 GNU C 中 ， 通 过 指定 索引 或 结构 体 成 
员 名 ， 人 允许 初始 化 值 以 任意 顺序 出 现 。 


指定 数组 索引 的 方法 是 在 初始 化 值 前 添加 “[INDEX]=”， 当 然 也 可 以 用 “[FIRST..LAST]=-” 的 形式 指定 
一 个 范围 。 例 如 ， 下 面 的 代 担 定义 了 一 个 数组 ， 并 把 其 中 的 所 有 元 系 赋 值 为 0: 


unsigned char data[MAX] = { [0 ... MAX-1] = 0 Jj; 


下 面 的 代码 信 助 结构 体 成 员 名 初始 化 结构 体 : 


euruct Tile ODOrQtloHS e€Xt2 tile OPa ionn = 1 
llseek: generic file Lleeek, 
road: generic ile read, 
Write: Generic iile write, 
21OCLIS OFC TO0CEL, 
mmap: generic file mmap, 
Opens generic Tile Open, 
release: esL- telease rite, 
LSynos Ozta Sync tile, 


[Hzé, Linux 2.61E 4g ZS DUIS TUES SETA RC HT PEC HS] 7 3 


struct Tile operations ext2 file operations = | 


.llseek = Generic tale llisSek, 
.read Generic tile read, 
.write Generic. Tile WITE; 


jaro read 
.aio write 


Generic tile aro Tead; 
generic file aio write, 


:LOE ext2 IOCLl, 

.mmap generic file mmap, 
.OPen Generic Te -cpen, 
pgeelease = Erla ‘release Tile, 

 Ioync = St sync fie; 

.readv = generi file ready, 
.writev = generic tile WIIUSV; 
.Sendfile = generrcc tile Sendrile; 


7.498 ER ALY 


GNU C 预 定义 了 两 个 标识 符 保 存 当 前 函数 的 名 字 ，_FUNCTION ”保存 函数 在 源码 中 的 名 字 ， 
”PRETTY FUNCTION _ 你 存 带 语言 特色 的 名 字 。 在 C 函 数 中 ， 这 两 个 名 字 是 相同 的 。 


void example() 


{ 
Princr ("This 26 fuilctron sy .FUNCTION. 7 


} 


代码 中 的 ”FUNCTION 意味 着 字符 串 “example”。C99 已 经 支持 fune 宏 ， 因 此 建议 在 Linux 编 程 中 
不 再 使 用 FUNCTION ， 而 转 而 使 用 func _ 


void example (void) 
{ 


Printi ("Ins 29 CUnCtlon:oes9", . unc. 7 


} 


8. 特 殊 属 性 声明 


GNU C 人 允许 声明 也 数 、 变 量 和 类 型 的 特殊 属性 ， 以 便 手动 优化 代码 和 定制 代码 检 查 的 方法 。 要 指定 
一 个 声明 的 属性 ， 只 需要 在 声明 后 添加 _attribute © CATTRIBUTE) ) 。 其 中 ATTRIBUTE 为 属性 说 
明 ， 如 果 和 存在 多 个 属性 ， 则 以 逗号 分 隔 。GNU C 文 持 noreturn、format、section、aligned、packed 等 十 多 个 
属性 。 


noreturn 属 性 作用 于 函数 ， 表 示 该 函数 从 不 返回 。 这 会 让 编译 器 优化 代码 ， 并 消除 不 必要 的 警告 信 
Al. Pun: 


# define ATTRIB NORET attribute ((noreturn)) .... 


asmlinkage NORET TYPE void do exit(long error code) ATTRIB NORET; 


format} E EHT AZO ZR VAR BÉ LS printf. scanfetstrftime XSW, TRE format/g f n] EL iE 2s 
PEAS TRS EBAY, POU: 


asmLlhnkage- int PLiIntk(Const Char * Ib; wis) .-@Gbribure ((format (princi, dy 2))) + 


上 述 代码 中 的 第 1 个 参数 是 格式 早 ， 从 第 2 个 参数 开始 部 会 根据 printf() BASE GER AUS EE 
数 。 


unused 属 性 作用 于 函数 和 人 变量， 表示 该 函数 或 变量 可 能 个 会 用 到 ， 这 个 属性 可 以 避 倪 编译 帮 产生 管 告 


aligned 属 性 用 于 变量 、 结 构 体 或 联合 体 ， 指 定 变 量 、 结 构 体 或 联合 体 的 对 齐 方式 ， 以 字 节 为 单位 ， 例 
Till s 


Struct example struct 4 
Char a 
imc B; 
Long Cs 
j attribute (laligned(4))); 


LETS VAG TAS TAE E Dh MY FF o 


packed 属 性 作用 于 变量 和 类 型 ， 用 于 变量 或 结构 体 成 员 时 表示 使 用 最 小 可 能 的 对 齐 ， 用 于 枚 举 、 结 构 
体 或 联合 体 关 型 时 表示 运 类 型 使 用 最 小 的 内 存 。 例 如 : 


SUtuOL example struct 4 
char a; 
int D; 
Long c X ectripure  (ipacked)Js 





— S VE sso ZG TA NM CAE EROR GEHT eA Y. SE Dt us [p] £58 RA o oa E RH SUP ES P 
如 ， 对 于 一 个 32 位 的 整 型 变量 ， 和 在 以 4 字 节 方式 存放 《〈 即 低 两 位 地 址 为 00) » WICPUTE — 4 4 Z8] SAA ait 
可 以 族 取 32 位 ; 合 则 ，CPU 需 要 两 个 总 线 周期 才能 读 取 32 位 。 


9. 内 建 图 数 


GNU C 提 供 了 大 量 内 建 函 数 ， 其 中 大 部 分 是 标准 C 库 函数 的 GNU Cs eas PI ERR AS, T ug 
memcpy O 守 ， 它 们 与 对 应 的 标准 C 库 函数 功能 相同 。 


不 属于 库 函 数 的 其 他 内 建 函 数 的 命名 通常 以 _builtin 开 始 ， 如 下 所 示 。 


A ÆA builtin return address (LEVEL) 返回 当前 函数 或 其 调用 者 的 返回 地 址 ， 参 数 LEVEL 指 定 
调用 栈 的 级 数 ， 如 0 表示 当前 图 数 的 返回 地 址 ，1 表 示 当 前 函数 的 调用 者 的 返回 地 址 。 


内 建 函 数 builtin constant p (EXP) 用 于 判断 一 个 全 是 售 为 编 详 时 第 数 ， 如 果 参 数 EXP 的 信和 是 第 
数 ， 了 函数 返回 1， 否 则 返回 0。 


例如 ， 下 面 的 代码 可 检测 第 1 个 参数 是 否 为 编译 时 常数 以 确定 采用 参数 版 本 还 是 非 参 数 版 本 : 





#define test bit(nr,addr) \ 
( "purlctrnm constant Pnr) N 


constant test bit((nr),(addr)) : \ 
vardsable best DLANE rtd yy 


‘ASE PK 2X builtin expect (EXP, C) HIT Aan VES TED] LWE JoRIBMBIESESURXA EXP 
的 值 ，C 的 值 必须 是 编译 时 常数。 


Linux 内 核 编程 时 常用 的 likely(〉 #llunlikely ©) 后 层 调 用 的 likely notrace () ~ unlikely notrace () i 
是 基于 builtin expect (EXP, CO 实现 的 。 


#define likely notrace (x) bie bean expec T(x). 1) 
#define unlikely notrace (x) __ builtin expect (!! (x); 0) 


NM, 


右 代 码 中 出 现 分 文 ， 则 即 可 能 中 断 流 水 线 ， 我 们 可 以 通过 likely C) Munlikely O 暗示 分 文 容易 成 立 


BENE A AL. IU: 


if (likely(!IN DEV ROUTE LOCALNET (in dev))) 
LL {ipva rs loopbacktsaqgdt)) 
goto e inval; 


在 使 用 gcc 编 译 C 程 序 的 时 候 ， 如 果 使 用 “ansi-pedantic" 编 译 选 项 ， 则 会 告诉 编译 需 不 使 用 GNU 扩 展 语 
法 。 例 如 对 于 如 下 C 程 序 test.c: 


SLEUGL var data. 
int len; 
char data) Ul: 
} ° 


P var data A; 
和 卫 接 编 详 可 以 通过 : 
gcc -c test.c 
如 采 使 用 “ansi-pedantic" 编 详 选 项 ， 编 详 会 报警 : 


qego “aneu. pedantic =C Teste 
test:C:3: warning: -I50-C forbids zero-saze: array ‘data! 


3.5.3 doí!while (0) 语句 


在 Linux 内 核 中 ， 经 常会 看 到 do{}while (0) 这 样 的 语句 ， 许 多 人 开始 都 会 疑惑 ， 认 为 dof}while C0) 
毫 无 意义 ， 因 为 它 只 会 执行 一 次 ， 加 不 加 dofjwhile C00 效果 是 完全 一 样 的 ， 其 实 dof}iwhile (0) 的 用 法 
主要 用 于 宏 定 义 中 。 

这 里 用 一 个 简 持 的 宏 来 渤 示 : 


#define SAFE FREE(p) do{ free(p); p = NULL;} while(0) 


假设 这 里 去 掉 do...while (0) ， 即 定义 SAFE_DELETE 为 : 


define SAFE FREE (p) free(p); p = NULL; 


那么 以 下 代码 : 


if (NUL. $= p) 
SAFE DELETE (p) 
else 
tied ™ GO Something ^/ 


BEIT A: 


if (NULL $e p) 
free (p); p = 
else 
sead" do Something */ 


NULL; 


展开 的 代码 中 存在 两 个 问题 : 
1) 因为 if 分 文 后 有 两 个 语句 ， 导 致 else 分 文 没 有 对 应 的 论 编译 失败 。 
2) 假设 没有 else 分 文 ， 则 SAFE FREE 中 的 第 二 个 语句 无 论 认 则 试 是 含 通过 ， 都 会 执行 。 
的 确 ， 将 SAFE FREE 的 定义 加 上 他 就 可 以 解决 上 述 问 题 了 ， 即 : 
#define SAFE FREE(p) ( free(p); p = NULL;) 
这 样 ， 代 码 : 


if (NULL 1= p) 
SAFE DELETE (p) 
else 
. 4^ do something *7 


BEIT 23: 


LTONULL- p) 
{ free(p); p = NULL; } 
else 
wo odo somethang *J 


(Bre, TECTEHP'B. fESET BIBUNT Se PREJXETRIMEJ2] TA, 35A. Ud PV: 


E NUT. = dp) 
SAFE DELETE (p) ; 
else 
. /* do something */ 


TAB HET: 


ix NUI qe) 
[Tre (py P= NULLS “hy 
else 
v of ado somethrng *7 


这 样 ，else 分 文 束 义 没 有 对 应 的 f 了 ， 编 译 将 无 法 通过 。 假 设 用 了 do{}while (0) 语句 ， 情 况 融 不 一 样 
了 ， 同 样 的 代码 会 被 展开 为 : 
if (NULL T= p) 
do{ free(p); p = NULL;} while (0); 


else 
c we do some hing wy 


而 不 会 再 出 现 编译 问题 。dofjwhile (0) 的 使 用 完全 是 为 了 保证 宏 定 义 的 使 用 者 能 无 编译 错误 地 使 用 宏 ， 
它 不 对 其 使 用 者 做 任何 假设 。 


3.5.4 ”goto 语 人 句 


用 不 用 goto 一 下 是 一 个 者 名 的 争议 话题 ，Linux 内 核 源 代 但 中 对 goto 的 应 用 非 钟 广 泥 ， 但 是 一 般 只 限于 
销 误 处 理 中 ， 其 结构 如 : 


(eLetter qi 290) 
GOLO err 

ii (regio Er DO) 150) 
goto errl; 

it(registet 00 790) 
goto err2; 

Lh (register dqU 290) 


goto err3; 


err.: 


ünregister CO 
err: 

unregister Di 
errl: 

unregister al); 
err: 


return ret; 


XP goto FERE AKEE fin) af aC, RS DRUETE TH VA AB PEDI TETI. OURS, SIE 
第 的 往 册 、 资 源 申请 顺序 相反 。 


36 工具 链 


在 Linux 的 编程 中 ， 通 第 使 用 GNU 工 具 链 编 译 Bootloader、 内 核 和 应 用 程序 。GNU 组 织 维护 了 GCC、 
GDB、glibce、Binutils 等 ， 分 别 见于 


https://gcc.gnu.org/, https://www.gnu.org/software/gdb/, https://www.gnu.org/software/libc/. https://www.gnu.ors 


£g W740 MAE Re 2329096 ,— — c n] Lai 2S (UA crosstool-ngix FF AYE AOR. erosstool-ng t3 HH 
TAEAE ET A 
"zd. ieíffct-ng menuconfig， 会 出 现 如 图 3.12 的 配置 染 单 。 在 里 面 我 们 可 以 选择 目标 机 处 理 大 型 号 ， 文 
持 有 的 内 核 版 本 号 等 。 


n >. Highlighted letters are 
odularizes features. P 
9 [ 


*] built-in [ ] excluded 





Target options ---» 
Toolchain options ---> 
z : 





Load an Alternate Configuration File 
Save an Alternate Configuration File 


3.12. crosstool-ngH) Ac Ei sie HR. 


SVR, qn UER RRES 77 98 EXER. JEUDI. TOS H bRABEESRHJACOC LAUNE, "ll 
fEhttp://www.mentor.com/embedded-software/sourcery-tools/sourcery-codebench/editions/lite-edition/. F. n] EJ 3 
4b XTARM,. MIPS. ;SiHexagon. Altera Nios I、Intel、AMD64 等 处 理 需 的 工具 链 ， 

在 http:/www.linaro.org/downloads/ 可 以 下 载 针 对 ARM 的 工具 链 。 


目前 ， 在 ARM Linux 的 开发 中 ， 人 们 趋向 于 使 用 Linaro Chttp://www.linaro.org/) 工具 链 团队 维护 的 
ARM 工 具 链 ， 它 以 每 月 一 次 的 形式 发 布 新 的 版 本 ， 编 译 好 的 可 执行 文件 可 从 网 
RE 4%. Linarozc ARM Linux 领 域 中 最 阁 名 最 其 技术 成 束 的 开源 组 织 ， 其 会 

包括 ARM、Broadcom、Samsung、TI、Qualcomm 等 ， 国 内 的 海 思 、 中 兴 、 全 志和 中 国 台 湾 的 MediaTek 
也 是 它 的 会 员 


一 个 典型 的 ARM Linux 工 具 链 包含 arm-linux-gnueabihf-gcc (后 续 工 具 省 略 前 级 ) ~ strips gees 
objdump、1d、gprof、nm、freadelf、addr2line 等 。 用 strip 可 以 删除 可 执行 文件 中 的 符号 表 和 调试 信息 等 来 实 
现 缩减 程序 体积 的 目的 。gprof 在 编译 过 程 中 在 函数 入 口 处 插入 计数 器 以 收集 每 个 函数 的 被 调用 情况 和 被 
调用 次 数 ， 检 查 程 序 计数 器 并 在 分 析 时 找 出 与 程序 计数 器 对 应 的 函数 来 统计 函数 占用 的 时 间 。objdump 是 
有 反 汇 编 工具 。nm 则 用 于 显示 关于 对 象 文件 、 可 执行 文件 以 及 对 象 文 件 库 里 的 符号 信息 。 其 中 ， 前 级 中 
的 “hf 显示 该 工具 链 是 完全 的 便 序 点 ， 由 于 目前 主流 的 ARM 心 户 都 目 市 VEFP 或 者 NEON 等 序 点 处 理 单 元 
(FPU) ， 所 以 对 硬 浮 点 的 需求 就 更 加 强烈 。Linux 的 浮 点 处 理 可 以 采用 完全 软 浮 点 ， 也 可 以 采用 与 软 浮 


RARE, (Axe HFPUE H softtip, UK EEEF A. AVSHYABI (Application Binary Interface, v Hif 


序 二 进 制 接口 ) 通过 -mfloat-abi= 参 数 指定 ，3 种 情况 下 的 参数 分 别 是 -mfloat-abi=soft/softfp/hard。 


在 以 前 ， 主 流 的 工具 链 


下 面 一 上段 程 序 : 


float mul(float a, 


{ 


return a * be 


} 


void main(void) 


{ 


float b) 


prance (Vi 5 BS 


} 


采用 “与 软 浮 点 兼容 ， 但 是 使 用 FPU 硬 件 的 softfp”。softfp 使 用 了 硬件 的 FPU， 
但 是 函数 的 参数 仍然 使 用 整 型 寄存 器 来 传递 ， 完 全 便 译 点 则 直接 使 用 FPU 的 寄存 器 传递 参数 。 


人 


对 其 使 用 arm-linux-snueabihfgcc 编 译 并 反 汇 编 的 结果 是 : 


000 08394 «mul»: 


e. 
Á 


8394: b480 push. . trv} 
0390€ D09:3 Sub: Spy Fiz 
8398). af00 add r7, sp, #0 
839a: ed87 Oa01vstrsO, [r7, #4] (nul11)839e: edc7 Oa00vstrsl, [r7] 
83a2: ed97 7a01 vladar s14, [r7, #4] (null) 
83a6: edd7 7a00 Wor > Slap LE] 
83aa: ee6/ 7a27 vmu ks toz loy. gSl4 $915 
83ae: eebO 0a67 VWIROV4 T3272 SU, 8915 
Soe ru POC ee £7; xd, L2 
83b6: 46bd IRON. Spp EY 
oobos beso pop. XE 
83ba: 4770 bac Lr 
0000 83be «main»: 
oobos. D580 push. Efe dx 
83be: af00 add r7, sp, #0 
S3C0% ed9f- Qa09vldrsO,- poe, #36) (nulLL); 9389.«maiimt0x20»599047 eddt 0a09vüdrsl,.. (oe, #36) (null); 
SoCo, Lift fred 58394 «mul» 
683cc: eer) /a40 vmov.f32 s15, s0 
83d0: eeb7 7ae7 Vet tot Ss Wy. Glo 
83d4: £248 4044 movw r0, #33860 ; 0x8444 
godes d2G0- 0000 movt rO, #0 
Sod EOD ZDI VOV “25. Pop Q 
peos TEL- Ef PIX 0269 <1 nate 20> 
83e4: bd80 pop: SX. DOJ 
83e6: bf00 nop 
而 使 用 没有 “hf 前 绥 的 arm-linux-gnueabi-gcc 编 详 并 反 拒 编 的 结果 则 为 
00D -0539c. smul: 
025005 D480 push Pr} 
0356*.J5053 Sub' Spr 2 
8390: ALJ add r7, sp, #0 
8392: 6078 Str - FOr ri, 44163945 6039 str rl, [r7, #0]8396: ed97 7a01 Alle na 
839e: ee6/ 7a27 vmübsft22 Sle . Say. 945 
83a2: eel/ 3a90 vmov 334 2615 
03a6: 4618 mow XU 
De JD JI- DG add.w r7, r7, #12 
83ac: 46bd ION" Soy El 
83ae: bc80 pop: Ev 
83b0: 4770 bx Ly 
83b2: pT 00 nop 
000 083b4 <main>: 
6354s D590 pusmn- Ew. JE 
83b6: af00 add. wd. Spy FO 
Bop: 4306 lo". Sec ipe 332] ; (83dc <main+Ox28>) 83ba: 4909 Ldr ode Jp F20] 
S36 Jfr dre bl. -8380 «mül- 
3900: ee. Vad vmov . sls 0 
83c4: eeb7 7ae7 VeEvterotet SZ Wis. 59 
63662. £246. 40383 movwrO0, #33848; 0x8438 
Ce *200- 0000 movtrO, #0 


83ec «main-c*O0x3 


(83e0 <maint 


S300 -Gob53 2Dl7 VINONEEZ. SO Oe cu 

03d4: f7ff ef84 Dio 19260 «€ LI LEOXA07 
S503: deo pop EY. Ded 

oodat DEJO nop 


关注 其 中 加 粗 的 行 ， 可 以 看 出 前 面 的 汇编 使 用 80 和 s1 传 递 参数 ， 后 者 则 仍然 使 用 ARM 的 r0 和 rl。 测 试 
显示 一 个 含有 浮 点 运算 的 程序 车 使 用 hard ABI 会 比 softfp ABI 快 5%~40%， 如 果 浮 点 负载 重 ， 结 果 可 能 会 快 
200% 以 上 。 


37 ”实验 军 建 设 


在 公司 或 学 校 的 实验 室 中 ，PC 的 性 能 一 般 来 说 不 会 太 珊 ， 用 PC 来 编译 Linux 内 核 和 模块 的 速度 总 会 受 
上 腿 。 相 反 ， 服 务 右 的 资源 相对 比较 充分 ，CPU 以 及 磁盘 性 能 部 较 噩 ， 因 此 在 服务 如 上 进行 内 核 、 驱 动 及 应 
用 程序 的 编 详 开 友 将 更 加 快捷 ， 而 且 使 用 服务 右 更 有 利于 统一 定理 实验 室内 的 所 有 开 友 者 。 图 3.13 所 示 为 


一 种 第 见 的 小 型 Linux 实 验 室 环境 。 


在 Linux 服 务 赦 上 局 动 了 Samba、NES 和 sshd 进 程 ， 各 工程 师 在 目 己 的 Linux 或 Windows 各 户 机 上 通过 
SSH 用 目 己 的 用 户 名 和 密码 登录 服务 硕 ， 便 可 以 使 用 服务 硕 上 的 GCC、GDB 等 软件 。 


在 Windows 下 ， 稼 用 的 SSH 客 户 病 软件 是 SSH Secure Shell， 而 配套 的 SSH Secure File Transfer 则 可 用 在 
客户 关 和 服务 豆 闫 复制 文件 。 在 Linux 下 可 以 通过 在 终 凯 下 运行 ssh 命 令 连 接 服 务 硕 ， 并 通过 scp 命 令 在 服务 
ax FU AS HZ [Al eZ itil] SOE o 
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Pat oe tat k 
GDB, GCC, | n em L 
Samba. sshd SEN mount NFS 
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目标 板 、 服 务 融 和 客 刻 问 全 部 通过 交换 机 连接 ， 同 时 客户 是 连接 目标 板 的 串口 作为 控制 人 台 。 在 调试 
Linux 应 用 程序 时 ， 为 了 方便 在 目标 板 和 开 友 环境 间 共 圣 文件 ， 有 时 候 可 以 使 用 NFS 文 件 系 统 。 编 号 完成 
的 应 用 程序 或 内 核 模 块 可 和 卫 接 存放 在 服务 帮 的 NFS 服 务 目 录 内 ， 而 该 目录 可 侯 目 标 板 上 的 Linux 系 统 疙 载 
到 本 号 的 一 个 目录 和 内。 


3.8 串口 工具 


在 艇 入 式 Linux 的 调试 过 程 中 ,目标 机 往往 会 提供 综 主机 一 个 串口 控制 台 ， 驱 动工 程 师 在 80% 以 上 的 
情况 下 部 是 通过 串口 与 目标 机 通信 。 因 此 ， 好 用 的 串口 工具 将 大 大 提 融 工程 师 的 生产 效 深 。 


在 Windows 坏 境 下 ， 其 附件 内 目 市 了 超级 终 疾 ， 超 级 终 闹 包括 了 对 VT100、ANSI 等 终 闹 仿真 功能 以 及 
对 xmodem、ymodem、zmodem 等 协议 的 文 持 。 


在 调试 过 程 中 ， 经 名 需要 保存 串口 打印 信息 的 历史 记录 ， 这 时 候 可 以 使 用 "传送 ? 深 单 下 的 "捕获 文 
字 ” 功 能 来 实现 。 


SecureCRT 是 比 超级 终端 更 强大 日 更 方便 的 工具 ， 它 将 SSH 的 安全 登录 、 数 据 传送 性 能 和 Windows 终 
闹 仿 真 提供 的 可 靠 性 、 可 用 性 和 可 配置 性 结合 在 一 起 。 鉴 于 SecureCRT 具 备 比 超级 终 闹 更 哩 大 有 晶 好 用 的 功 
能 ， 建 议 直 接 用 SecureCRT 蔡 代 超 级 终端 


在 开发 过 程 中 ， 为 执行 目 动 化 的 串口 发 送 操作 ， 可 以 使 用 SecureCRT 的 VBScript 脚 本 功能 ， 让 其 运行 
一 段 脚本 ， 目 动 捕获 接收 到 的 串口 信息 并 回 串 口上 发 送 指定 的 数据 或 文件 。 下 面 的 脚本 设置 了 SecureCRT 
等 待 至 接收 到 “CCC"” 字 符 串 后 通过 xmodem 协 议 发 送 file.bin 文 件 ， 接 着 ， 当 接收 到 “y/n” 时 ， 选择 “y”。 


#Slanguage = "VBScript" 

folnterface = "1.0" 

Sub main 
Dir = "d:\baohua\" 
' turn on synchronous mode so we don't miss any data 
crt.Screen.Synchronous = True 


'wait "CCC" string then send file 
Crtl.screen.Waltrororring "CCC 
crt.fileTransfer.SendXmodem Dir & "file.bin" 
'wait "y/n" string then send "y" 
crt.ocreen,.WaitForString "y/n" 
crt.Screen.Send "y" & VbCr 
End Sub 


男 外 ， 在 Windows 坏 境 下 ， 也 可 以 选用 PuTTY 工 具 ， 该 工具 非常 小 巧 ， 而 功能 很 强大 ， 可 文 持 串口 、 
Telnet ASSH, HBE 77 PAL Ahttp://www.chiark. greenend.org.uk/~sgtatham/putty/ - 


Minicomze Linux i FS FA RAF Windows ERAMATE, SARALA S ON, mic 
按 下 “Ctrl+A” 键 ， 紧 接着 按 下 “Z”" 键 激活 菜单 ， 如 图 3.14 所 示 。 
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图 3.14 Minicom 


除了 Minicom 以 外 ， 在 Linux 系 统 下 ， 也 可 以 直接 使 用 C-Kermit。 运 行 kermit 命 令 即 可 局 动 C-Kermit。 在 
使 用 C-Kermit 连 接 目 标 板 之 前 ， 需 先进 行 串口 设置 ， 如 下 上 所 示 : 


set line /dev/ttySO0 
set speed 115200 

Set carrier-watch off 
set handshake none 
set fTlow-cOontrol none 
robust 

set file type bin 

Set Lite name Lrt 

set rec pack 1000 

set send pack 1000 
set window 5 


之 后 ， 使 用 以 下 命令 就 可 以 将 kermit 连 接 到 目标 板 : 


在 kermit 的 使 用 过 程 中 ， 会 涉及 串口 控制 从 和 kermit 功 能 模式 之 间 的 切换 ， 从 串口 控制 全 切换 到 kermit 
的 方法 是 按 下 “Ctri+\* 键 ， 然 后 再 按 下 “C”* 键 。 


假设 我 们 在 串口 控制 台 上 敲 入 命令 ， 使 得 目标 板 进 入 文件 接收 等 待 状态 ， 此 后 可 按 下 “Ctrlt+\* 键 ， 再 
按 “C” 键 ， 切 换 到 kermit， 运 行 “send/file name”* 命 令 传输 文件 。 文 件 传输 结束 后 ， 由 运行 “ce”* 命 令 ， 将 进入 
c pe. 


本 章 主 要 讲解 了 Linux 内 核 和 Linux 内 核 编 程 的 基础 知识 ， 为 读者 在 进行 Linux 驱 动 开 发 打下 软件 基 
fili o 


在 Linux 内 核 方面 ， 主 要 介绍 了 Linux 内 核 的 发 展 史 、 组 成 、 特 点 、 源 代码 结构 、 内 核 编译 方法 及 内 核 
引导 过 程 。 


由 于 Linux 驱 动 编程 本 质 属 于 内 核 编程 ， 因 此 掌握 内 核 编程 的 基础 知识 显得 尤为 重要 。 本 章 在 这 方面 
主要 讲解 了 在 内 核 中 新 增 程序 、 目 录 和 编写 Kconfig 和 Makefile 的 方法 ， 并 分 析 了 Linux 下 C 编 程 习 惯 以 及 
Linux 所 使 用 的 GNU C 针 对 标准 C 的 扩展 语法 。 


第 4 章 “Linux 内 核 模 块 
本 章 导读 


Linux 设 备 驱 动 会 以 内 核 标 块 的 形式 出 现 ， 因 此 ， 竺 会 编写 Linux 内 核 柑 块 编程 是 学 习 Linux 设 备 驱 动 
的 先决 条 件 。 


4.1~4.2 节 讲解 了 Linux 内 核 模 块 的 概念 和 结构 ，4.3~4.8 节 对 Linux 内 核 模块 的 各 个 组 成 部 分 进行 了 展 
现 。4.1~4.2 节 与 4.3~4.8 节 是 整体 与 部 分 的 关系 。 


4.9 节 说 明了 独立 存在 的 Linux 内 核 模块 的 Makefile 文 件 编写 方法 和 模块 的 编译 方法 。 


4.10 贡 讨论 了 使 用 模块 “经 开 ?”GPL 的 问题 。 


4.1 LinuxA fZ Pa Ex ff] 4| 


Linux WARRE ARA HESS EK, FLT ANZA dETS es Tf XI LIFE dU ma 2e HJ 33 27 EN 
核 中 呢 ? 


一 种 方法 是 把 所 须要 的 功能 部 编 详 到 Linux 内 核 中 。 这 会 村 至 两 个 问题 ， 一 是 生成 的 内 核 会 很 大 ， 
二 古 如 未 我 们 要 在 更 有 的 内 核 中 新 增 或 删除 功能 ， 将 不 得 不 重新 编 详 内 核 。 


有 没有 为 一 种 机 制 可 使 得 编 详 出 的 内 核 本 里 并 个 十 要 包含 所 有 功能 ， 而 在 这 些 功 能 第 要 馈 使 用 的 时 
候 ， 其 对 应 的 代码 航 动 在 地 加 载 到 内 核 中 呢 ? 


Linux 皖 供 了 这 样 的 机 制 ， 这 种 机 制 梓 称 为 模 基 《Module) o KRHA RE HIREA o 
PER AR A AS AEA AZIM MAIER SAA AZAD 
模块 一 旦 被 加 载 ， 它 束 和 内 核 中 的 其 他 部 分 完全 一 样 。 


为 了 使 谈 者 杞 步 建立 对 模块 的 感性 认识 ， 我 们 先 来 看 一 个 最 简单 的 内 核 模块 “Hello World”， 如 代码 清 
单 4.1 所 示 。 


代码 清单 4.1 ”一 个 最 人 简单 的 Linux 内 核 模块 


L~" 

2 * a simple kernel module: hello 

3 * 

4 x Copyright (C) 2014 Barry Song  (baohua(Gkernel.org) 
5 * 

6 * Licensed under GPLv2 or later. 

Tay 


8 

9#include <linux/init.h> 
10#include <linux/module.h> 
11 
l2stuteo ant anit bello 1m1e (void) 
13{ 
14 printk(KERN INFO "Hello World enter\n"); 
lo  xeturm 95 
16] 


Limodule init (nello init)? 

18 

19static void exit hello exit(void) 

20 { 

21 printk(KERN INFO "Hello World exit\n "); 
22] 

Z39module exit(hello exrt); 

24 


25MODULE AUTHOR("Barry Song «21cnbao(gmail.com»"); 
26MODULE LICENSE (TOPO 2 3 

21MODULE DESCRIPTION ("A simple Hello World Module"); 
28MODULE ALIAS ("a simplest module"); 


^h ge fe) FREI A ACER: HUBS VRBE SERI AC. ED ER UR] GPL v2 YT n] J9CBR AI a HH EA — Ee 38 
Na. Br]BBU EUbuntuf/home/baohua/develop/training/kernel/drivers/hello HRK. Zi VE E P7 AE 
hello.ko 目 标 文 件 ， 通 过 “insmod./hello.ko”" 命 令 可 以 加 载 它 ， 通 过 “mmod hello” Ar n] EAR, HH ALERT a 


出 “Hello World enter’, SED 447 44 “Hello World exit"; 


内 核 模块 中 用 于 输出 的 函数 是 内 核 空间 的 printk ()》 而 不 是 用 户 空间 的 printf(〉 ，printk〈) 的 用 法 和 
printf ©) 基本 相似 ， 但 前 者 可 定义 输出 级 别 。printk() 可 作为 一 种 最 基本 的 内 核 调 斌 手段， 在 Linux 豫 动 
的 调试 章节 中 将 会 详细 讲解 


在 Linux 中 ， 使 用 Ismod 命 令 可 以 获得 系统 中 已 加 载 的 所 有 借 块 以 及 模块 则 的 依赖 天 系 ， 例 如 : 


Module Size Used by 
hello 9 472 0 
nls 1509094 1 12 052 l 
nls cp437 13 696 1 
vfat lo 626 i 
1 vfat 


fat 24 306 


Ismod 命 令 实 际 上 是 读 取 并 分 析 “/proc/modules” 文 件 ， 与 上 述 Ismod 命 令 结果 对 应 的 “/proc/modules” 文 件 
如 下 : 


$ cat /proc/modules 

hello 12393 0 - Live 0xe67a2000 (OF) 
nls utf8 12493 1 = Live Oxeo78e000 
isofs 39596 1 = Live 0xe677f000 
vboxsf 42561 2 - Live 0xe6767000 (OP). 


内 核 中 已 加 载 模 块 的 信息 也 存在 于 /sys/module 目 录 下 ， 加 载 hello.ko 后 ， 内 核 中 将 包含 /sys/module/hello 
目录 ， 访 目录 下 义 有 有 一 个 refent 父 件 和 一 个 sections 目 录 ， 在 /sys/module/hello 目 录 下 运行 “tree-a” 可 得 到 如 下 
目录 树 : 

root@barry-VirtualBox:/sys/module/hello# tree -a 


. | coresize|-- holders}+— initsize|-- initstate}— notes| L- .note.gnu.build-id|— refcnt}+— sections| I—— .exit. 
3 directories, 15 files 


modprobe 命 令 比 insmod 命 令 要 强大 ， 它 在 加 载 某 模 块 时 ， 会 同时 加 载 该 借 世 所 依赖 的 其 他 和 模 匡 。 使 用 
modprobe 命 令 加 载 的 模块 大 以 “modprobe-r flename” 的 方式 凶 载 ， 将 同时 季 载 其 依赖 的 模块 。 模 块 之 间 的 
依 惠 天 系 存 放 在 根 文件 系统 的 /lib/modules/<kernel-version>/modules.dep 文 件 中 ， 实 际 上 古 在 整体 编译 内 核 
EA] ENT fl FH depmod_L LAE RBS. “EEN AS SUSE Ay fa] HR: 

kernel/lib/cpu-notifier-error-inject.ko: kernel/lib/notifier-error-inject.ko 
kernel/libypm-notifiert-error-inject.ko: kernel/lib/notifler-error-inject.ko 
kernel/lib/lru cache.ko: 

kernel/lib/cordic.ko: 

kernel/lib/rbtree test.ko: 


kernel/lib/interval tree test.ko: 
updates/dkms/vboxvideo.ko: kernel/drivers/gpu/drm/drm.ko 


使 用 modinfo< 模 块 名 > 命令 可 以 获得 模块 的 信息 ， 包 括 模 块 作者 、 模 块 的 说 明 、 模 块 所 文 持 的 参数 以 


AX vermagic: 


+ modinfo hello.ko 


filename: 
alias: 


description: 


license: 
author: 
depends: 
vermagic: 


/home/baohua/develop/training/kernel/drivers/hello/hello.ko 
a simplest module 

A simple Hello World Module 

GPL v2 

Berry Song «2Llonbao8gmarl.com.- 


T.,0.0e-rcol SMP -Mod un Load: 696 


4.2 ”Linux 内 核 模 块 程序 结构 
一 个 Linux 内 核 模块 主要 由 如 下 几 个 部 分 组 成 。 
(1) 模块 加 载 函 数 


当 通 过 insmod 或 modprobe 命 令 加 载 内 核 模 世 时 ， 午 其 的 加 载 琐 数 会 目 动 仆 内 核 执 行 ， 完 成 本 蛋 块 的 相 
天 初始 化 工作 。 


(2) TUAE SER AC 


"qfiirmmodáp 4 EN OR PRR AY, BRERA EN a BSEC ETAT 063 PER EN SS UTR SCIT] 0] 


anb 
CC 


(3) 模块 许可 证 声明 


许可 证 (LICENSE) 声 明 摘 述 内 核 模 撕 的 许可 权限 ， 如 果 不 声 明 LICENSE， 模 块 被 加 载 时 ， 将 收 到 
内 核 被 污染 (Kernel Tainted) 的 警告 。 


在 Linux 内 核 模块 领域 ， 可 接受 的 LICENSE 包 括 “GPL”、“GPL v2” “GPL and additional rights”. “Dual 
BSD/GPL”、“Dual MPL/GPL” 和 “Proprietary”〈( 天 于 模块 是 耕 可 以 采用 非 GPL 许 可 权 ， 如 “Proprietary”， 这 
EAR FAYE ERD A PN) 。 


KE SAUL RR. AREER DIE TR GPLIR AE ATA. Linux EZ ee ie A LA s VA, 
MODULE LICENSE (“GPL v2”) 语句 声明 模块 采用 GPL v2. 


(4) 模块 参数 (可 选 ) 
模块 参数 是 模块 被 加 载 的 时 低 可 以 传 圳 给 它 的 值 ， 它 本 里 对 应 模块 内 部 的 全 局 变量 ，。 
(5) RRS Cay at) 


由 核 醒 块 可 以 导出 的 符号 〈symbol， 对 应 于 函数 或 变量 ) , ar, FER UU AY MEH AS ERB EN 


(60 模块 作者 等 信息 声明 (可 选 ) 


4.33. RRINE PK ZA 


Linux PY fZ SERI SER BL Mc UA init VA P3 B], WAI EY ER HE SERI CE TEE UMEN A 4.2 PITS o 


AXIS 4.2 ALAA PRR TK PR C 


L Static ne . Init Inicraglizotrion Tunctromivord) 
Z 

3 /* 初始 化 代码 */ 

4 } 

5 


module init(initralization function); 


FECERIS ES AL UA" module init (HAA) ”的 形式 被 指定 。 它 返回 整 型 值 ， 厂 彻 始 化 成 功 ， 应 返 
而 在 初始 化 失败 时 ， 应 该 返回 错误 编码 。 在 Linux 内 核 里 ， 错 误 编 码 是 一 个 接近 于 0 的 负 值 ， 在 
<linux/errno.h> 中 定义 ， 包 仿 -ENODEV、-ENOMEM 之 类 的 符 写 什 。 总 是 返回 相应 的 错误 编码 是 种 非常 好 
的 习惯 ， 因 为 只 有 这 样 ， 用 户 程 序 才 可 以 利用 perror 等 方法 把 它们 转换 成 有 意义 的 错误 信息 字符 串 。 


在 Linux 内 核 中 ， 可 以 使 用 request module (const char*fmt, ...) 函数 加 载 内 核 模 块 ， 驱 动 开 发 人 员 可 
以 通过 调用 下 列 代 人 码 : 


request. module (moqule name); 
TRG HIT CC AA BR 


fELinux'?, PARA init] KAA Be EEA TK, BAAR ib op, TEER T 
者 会 族 在 .inittext 这 个 区 段 内 。 


#define . 10st -Atribute 4{. -SOectron  —(["cnirttexco")J7 


所 有 的 init 函数 在 区 段 .initcallinit 中 还 保存 了 一 份 图 数 指针 ， 在 初始 化 时 内 核 会 通过 这 些 图 数 指针 调 
用 这 些 ”init 函 数 ， 并 在 初始 化 完成 后 ， 释 放 init 区 上 段 〈 包 括 .init.text、.initcall.init 等 ) WA. 


除了 函数 以 外 ， 数 据 也 可 以 被 定义 为 ”initdata， 对 于 只 是 初始 化 阶段 需要 的 数据 ， 内 核 在 初始 化 完 
后 ， 也 可 以 释放 它们 占用 的 内 存 。 例 如 ， 下 和 面 的 代码 将 hello data 定 义 为 _initdata: 


人 
Scarico int TNE hello inzctiovosd) 
{ 
printk(KERN INFO "Hello, world @d\n", hello data); 
return O; 
} 
module init(hello init); 
Statice void . exit Nello exit (vod) 
{ 
printk (KERN INFO "Goodbye, world\n") ; 
} 


module exicihello: exit); 


4.4. BREED ay ph A 


Linux WARRI EA BL M UA — exit VA P3 8], MA RRR ER ER BY JE UU T T 4.3 AIT AB o 


代 人 担 清 单 4.3 AYA ER EN LER 


tatroc void exit cleanup function(vord) 
/* 释放 代码 */ 


odule exit(cleanup.tunctlon); 


T ER EN ER PR BNE BREN BIS] RT PAT» T IIE, = EA module exit HA) ”的 形式 来 
Fa RE o WOR DU. PEREN ER PR By ER 76 653 TK PR A CEP] RE o 


我 们 用 ”exit 来 修饰 模块 翻 载 图 数 ， 可 以 香 诉 内 核 如 果 相 关 的 模块 极 和 直接 编 详 进 内 核 〈 即 built-in) ， 
则 cleanup function ©) 函数 会 被 省 略 ， 直 接 不 链 进 最 后 的 镜像 。 既 然 模 块 被 内 置 了 了 ， 隐 不 可 能 到 载 它 了 了， 
色 载 辆 数 也 束 没 有 存在 的 必要 了 了。 除了 图 数 以 外 ， 只 是 退出 阶段 采用 的 数据 也 可 以 用 ”exitdata 来 形容 。 


45 ”模块 参数 


我 们 可 以 用 “module param 《参数 名 ， 参 数 闫 型， 参数 旋 / 写 权限 ) ”为 模块 定义 一 个 参数 ， 例 如 下 列 代 
AE LS SEB AI SET EL 
SLC Char *Dook name = "dissecting linux Device Driver”; 
module param(book name, charp, S IRUGO); 


Static inte. book Tum = 40007 
module param (book num, int; S IRUGO); 


FEAR aK A TAREE, FAP DA Eee BL, JE Jnsmode 〈 或 modprobe) 模块 名 参数 名 = 参数 
值 ?”， 如 果 不 传递 ， 参 数 将 使 用 模块 内 定义 的 缺 省 值 。 如 果 模 块 被 内 置 ， 束 无 法 insmod 了 ， 但 是 bootloader 
可 以 通过 在 bootargs 里 设置 “使 氛 名 .参数 名 = 信 ” 的 形式 给 广内 置 的 模块 传递 参数 。 


参数 类 型 可 以 是 byte、short、ushort、int、uint、long、ulong、charp 《字符 指针 ) 、bool 或 invbool (Ai 
PRAT BQ) » ERRA EEN module param 中 声明 的 类 型 与 变量 定义 的 闫 型 进行 比较 ， 判 断 是 售 一 致 。 


除 此 之 外 ， 和 模块 也 可 以 拥有 参数 数组 ， 形 式 为 “module param array( 数 组 名 ， 数 组 类 型 ， 数 组 长 ， 参 
数 谈 /与 权限 ) ”。 


模块 补 加 载 后 ， 在 /sys/module/ 目 录 下 将 出 现 以 此 模块 名 命名 的 目录 。 当 “参数 讯 /号 权限 ”为 0 时 ， 表 未 
此 参数 不 存在 sysfs 文 件 系 统 下 对 应 的 文件 节操 ， 如 果 此 柑 块 存在 “参数 读 / 写 权限 ”不 为 0 的 命令 行 参 数 ， 在 
此 模块 的 目录 下 还 将 出 现 parameters 目 孙 ， 其 中 包 侣 一 系列 以 参数 名 命名 的 文件 节点 ， 这 些 文件 的 权限 值 
怠 是 传 入 module param O 的 “参数 读 / 写 权限 ”， 而 文件 的 内 容 为 参数 的 值 。 


运行 insmod 或 modprobe 命 令 时 ， 应 使 用 带 写 分 隅 输入 的 数组 元 系 。 


现在 我 们 定义 一 个 包含 两 个 参数 的 模 其 《如 代码 清单 4.4， 位 于 本 书 配套 源 代 但 [kerneldrivers/param H 
KP ， 并 观察 模块 加 载 时 被 传递 参数 和 不 传递 参数 时 的 输出 。 


代码 清单 4.4 THB RUA APR 


#include <linux/init.h> 
#include «linux/module.h» 


Static char “book name = "dissecting Linux Device Driver"; 
module param(book name, charp, S IRUGO); 


static int book num - 4000; 
module param(book num, ant, 9 IBRUGO); 


CO —] O0 O1 4E CO N IP 


O 


LO SOSLIC Int — Init DOOk IBIDL(VOLO) 

11 { 

127 printk(KERN INFO "book name:%s\n", book name); 
1:3 printk(KERN INFO "book num:%d\n", book num); 


14 return Uj 

15 } 

16 module init(book init); 

17 

18 static void exit book exit(void) 


1. 3 


20 printk(KERN INFO "book module exit\n "); 

21 } 

22 module exit(book exit); 

24 MODULE AUTHOR("Barry Song <baochua@kernel.org>"); 
29. MODULE DLICENSE(UGPB v2") 7 


26 MODULE DESCRIPTION("A simple Module for testing module params"); 
2l MODULE: VERSION ("V1.0") 7 


对 上 述 模块 运行 “insmod book.ko” 命 令 加 载 ， 相 应 输出 都 为 模块 内 的 默认 值 ， 通 过 
看 “/var/log/messages” 日 志文 件 可 以 看 到 内 核 的 输出 : 


# tail -n 2 /var/log/messages 
Jul 2 01:03:10 localhost kernel: «6» book name:dissecting Linux Device Driver 
Jul 2 01:03:10 localhost kernel: book num:4000 


IH P1247 “insmod book.ko book name='GoodBook'book num-5000"459 HI, $n h He TSES 
BN 


# tail -n 2 /var/log/messages 
Jul 2 01:06:21 localhost kernel: «6» book name:GoodBook 
Jul 2 01:06:21 localhost kernel: book num:5000 


Jy. fE/sysHo& FP. thin I ELE Sllbook ERIS: 


barry@barry-VirtualBox:/sys/module/book/parameterss tree 
.|— book namet— book num 


并 且 我 们 可 以 通过 “cat book name” 和 “cat book num”* 查 看 它们 的 值 。 


4.6 “导出 符号 
Linux 的 ”%proc/kallsyms” 文 件 对 应 独 内 核 符 亏 表 ， 它 记录 了 符号 以 及 符号 所 在 的 内 存 地 址 。 
EER AY LEHU RSM AES BATA TE SZ 


EXPORT SYMBOL (#54) ; 
EXPORT SYMBOL GPL(#f#S4) ; 


SEE AN Ey AY DAB REA, R i EA BT FH — PBN Ay. EXPORT SYMBOL GPL O 只 适用 于 
包含 GPL 许可 权 的 模块 。 代 码 清单 4.5 给 出 了 一 个 导出 整数 加 、 减 运算 函数 符号 的 内 核 梗 块 的 例子 。 


代 但 清单 4.5 ARERR EN FP h 


L #include €elinux/init.h» 

2 dinclude <linux/module.h> 

3 

4 Int adda 1nLegaritlHt ay INC D) 

9 4 

6 return a+ b; 

(E 

8 EXPORT SYMBOL GPL(add integar); 
9 
LU AXmE.sup.inteosr(lnb ay 10L D) 
11 { 
La FOLUTI a = D; 
13 3 
14 EXPORT SYMBOL GPL(sub integar); 
15 


LG MODULE: LICENGE(TGPL v2"); 


从 “/proc/kallsyms” 文 件 中 找 出 add integar. sub integar 的 相关 信息 : 


# grep integar /proc/kallsyms 
e679402c r _ksymtab sub integar [export symb] 
e0794050 r ketrtab sub integar [export symbj 
e6794038 r  kcrctab sub integar [export symb] 
e6794024 r  ksymtab add integar [export symb] 
e6794048 r  kstrtab add integar [export symb] 
eo/94054 r X korctabo add xntegar [export symb] 

t add integar [export symb] 

t sub integar [export symb] 


e6793000 
e6793010 


4.7 ”模块 声明 与 插 述 


在 Linux 内 核 模块 中 ， 我 们 可 以 用 MODULE AUTHOR. MODULE DESCRIPTION, 
MODULE VERSION, MODULE DEVICE TABLE. MODULE ALIAS 分 别 声明 模块 的 作者 、 描 述 、 版 
本 、 设 备 表 和 别名 ， 例 如: 


MODULE AUTHOR (author); 

MODULE DESCRIPTION (description); 
MODULE VERSION(version string); 
MODULE DEVICE TABLE(table info); 
MODULE ALIAS(alternate name); 


对 于 USB、PCI 等 设备 驱动 ， 通 常会 创建 一 个 MODULE DEVICE TABLE， 以 表明 该 驱动 模块 所 支持 
的 设备 ， 如 代码 清单 4.6 所 示 。 


代 但 清单 4.6 ”驱动 所 支持 的 设备 列表 


1 /* table of devices that work with this driver */ 
2 Statre StrucE USD device rd SKel table TI = 4 

3 ( USB DEVICE(USB SKEL VENDOR ID, 

4 USB SKEL PRODUCT ID) }, 

5 { } /* terminating enttry */ 

o Jj; 

7 
8 


MODULE DEVICE TABLE (usb, Skel tabie); 


此 时 ， 并 不 需要 读者 理解 MODULE DEVICE TABLE 的 作用 ， 后 续 相 关 章 节 会 有 详细 介绍 。 


4.8 ”模块 的 使 用 计数 


Linux 2.4 内 核 中 ， 模 块 自身 通过 MOD INC USE COUNT. MOD DEC USE COUNT 宏 来 管理 自己 被 
使 用 的 计数 。 


Linux 2.6 以 后 的 内 核 提 供 了 模块 计数 官 理 接口 try module get (&module) 和 
module put C&module) ， 从 而 取代 Linux 2.4 内 核 中 的 模块 使 用 计数 官 理 宏 。 标 块 的 使 用 计数 一 般 不 必 由 
模块 自身 管理 ， 而 且 模 块 计数 管理 还 考虑 了 SMP 与 PREEMPT 机 制 的 影响 。 


int try module ES 


APRA TIARE Ta; AKIN, Zev AW, AEE H BSEC IC BOUE EG BOE E CIE 
载 中 。 


void module put(struct module *module); 
该 函数 用 于 减少 模块 使 用 计数 。 


try module get () 和 module put © 的 引入 、 使 用 与 Linux 2.6 以 后 的 内 核 下 的 设备 模型 密切 相关 。 
Linux 2.6 以 后 的 内 核 为 不同 类 型 的 设备 定义 了 struct module*owner 域 ， 用 来 指 问 官 理 此 设备 的 模块 。 当 开 
始 使 用 茶 个 设备 时 ， 内 核 使 用 try module get (dev->owner) 去 增加 管理 此 设备 的 owner 策 块 的 使 用 计数 ; 
当 不 再 使 用 此 设备 时 ， 内 核 使 用 module put (dev->owner) 减少 对 管理 此 设备 的 管理 模块 的 使 用 计数 。 这 
样 ， 当 设备 在 使 用 时 ， 管 理 此 设备 的 模块 将 不 能 被 外 载 。 只 有 当 设 备 不 再 被 使 用 时 ， 模 块 才 允 许 被 外 载 。 


在 Linux 2.6 以 后 的 内 核 下 ， 对 于 设备 驱动 而 言 ， 很 少 需 要 亲 目 调用 try module get O 与 
module put O ， 因 为 此 时 开发 人 员 所 写 的 张 动 通 币 为 文 持 菏 有 共 体 议 备 的 管理 模块 ， 对 此 议 备 owner 醒 块 
的 计数 演 理 由 内 核 里 更 确 层 的 代码 (如 忆 线 驱动 或 是 此 类 设备 共用 有 的 核心 模块 ) 来 实现 ， 从 而 简化 了 设备 
KIF R -o 


4.9 REIN 
我 们 可 以 为 代码 清 蛙 4.1 的 模板 编写 一 个 人 简单 的 Makefile: 


KVERS = S(shell uname -r) 
# Kernel modules 
obj-m += hello.o 
# Specify flags for the module compilation. 
#EXTRA CFLAGS--g eL 
buxldi Kernel modules 
kernel modules: 
make -C /lib/modules/S(KVERS)/build M-$(CURDIR) modules 
clean: 
make -C /lib/modules/S(KVERS)/build M=S(CURDIR) clean 


该 Makefile 文 件 应 该 与 源 代码 hello.c 位 于 同一 目录 ， 开 启 其 中 的 EXTRA CFLAGS=-g-00， 可 以 得 到 包 
含 调试 信息 的 hello.ko 模 块 。 运 行 make 命 令 得 到 的 模块 可 直接 在 PC 上 运行 。 


H 


如 果 一 个 模块 包括 多 个 .c 文 件 〈 如 filel.c、file2.c) ， 则 应 该 以 如 下 方式 编写 Makefile: 


obj-m := modulename.o 
modulename-objs := filel.o file2.o 


4.10 ”使 用 模块 “ 绕 开 ”GPL 


Linux 内 核 有 两 种 导出 从 号 的 方法 给 模块 使 用 ， 一 种 方法 是 EXPORT_ SYMBOL O ， 男 外 一 种 是 
EXPORT SYMBOL GPL O) 。 这 一 点 和 模块 A 导出 符号 给 模块 B 用 是 一 致 的 。 


内 核 的 Documentation/DocBook/kernel-hacking.tmpl 明 确 表 明 “the symbols exported by 
EXPORT SYMBOL GPL €) can only be seen by modules with a MODULE LICENSE () that specifies a GPL 
compatible license.” 由 此 可 见 内 核 用 EXPORT SYMBOL GPL O 导出 的 符号 是 不 可 以 被 非 GPL 模 块 引 用 
的 。 


由 于 相当 多 的 内 核 符 号 都 是 以 EXPORT SYMBOL GPL O 导出 的 ， 所 以 历史 上 曾经 有 一 些 公司 把 内 
核 的 EXPORT SYMBOL GPL O 直接 改 为 EXPORT SYMBOL () ， 然 后 将 修改 后 的 内 核 以 GPL 形式 发 
布 。 这 样 修改 内 核 之 后 ， 模 块 不 再 使 用 内 核 的 EXPORT SYMBOL GPL O 符号 ， 因 此 模块 不 再 需要 
GPL。 对 此 Linus 的 回复 是 :“] think both them said that anybody who were to change a xyz GPL to the non-GPL 
one in order to use it with a non-GPL module would almost immediately fall under the“willful infringement thing; 


and that lt would make it MUCH easier to get triple damages and/or injunctions, since they clearly knew about 


it^. Bb. MBE N BER ees IC (willful infringement) ”。 


Fb — BEES — wrapperA ARE GUT ERG TSGPL) ， 把 EXPORT SYMBOL GPL O 导出 
的 符 亏 封 疼 一 次 后 再 以 EXPORT SYMBOL ©) 形式 导出 ， 而 其 他 的 模块 不 直接 调用 内 核 而 是 调用 wrapper 
函数 ， 如 图 4.1 所 示 。 这 种 做 法 也 具有 和 争议 。 


xxx func() 


wrapper funca() 其 他 模块 
) 4FGPL 


wrapper funca() 


funca () wrapper fii Jt 
GPL v2 





} 
EXPORT SYMBOL(wrapper funca) 


funca () 
Linux 内 核 GPL v2 


} 
EXPORT SYMBOL GPL (funca) 





图 4.1 将 EXPORT SYMBOL GPL 重新 以 EXPORT SYMBOL 导出 


一 般 认 为 ， 保 守 的 做 法 是 Linux 内 核 不 能 使 用 非 GPL 许可 权 。 


All 总 结 


本 草 主 要 讲解 了 Linux 内 核 模块 的 概念 和 基本 的 编程 方法 。 内 核 模块 由 加 载 / 凶 载 函数 、 功 能 函数 以 及 
一 系列 声明 组 成 ， 它 可 以 被 传 入 参数 ， 也 可 以 导出 从 写 供 其 他 模块 使 用 。 


由 于 Linux 设 备 张 动 以 内 核 模 其 的 形式 存在 ， 因 此 ， 笃 握 这 一 章 的 内 容 是 编写 任何 设备 张 动 的 必需 。 


第 $ 间 ”Linux 文件 系统 与 设备 文件 
AS Bt GE 


EF Ce PE a 8 a BS EP A IS ESOP CT EA, 3ÉjéLinux OF ARS. Be CTE 
FRSC AL WA w FA 4 RC TF 


自 完 ， 驱 动 取 终 通过 与 文件 操作 相关 的 系统 调用 或 C 库 函数 本质 也 基于 系统 调用 ) 被 访问 ， 而 设备 
驱动 的 结构 最 终 也 十 为 了 迎合 所 供给 应 用 程序 员 的 API。 


其 次 ， 驱 动工 程 师 在 设备 驱动 中 不 可 避免 地 会 与 设备 文件 系统 打交道 ， 包 括 从 Linux 2.4 内 核 的 devfs 文 
件 系 统 到 Linux 2.6 以 后 的 udev。 


5.1 廊 讲解 了 通过 Linux API 和 C 库 函数 在 用 户 空 间 进行 Linux 文 件 操 作 的 编程 方法 。 


5.2 节 分 析 了 Linux 文 件 系 统 的 目录 结构 ， 人 简单 介绍 了 Linux 内 核 中 文件 系统 的 实现 ， 并 给 出 了 文件 系统 
与 设备 驱动 的 天 系 。 


5.3 节 和 5.4 节 分 别 讲解 Linux 2.4 内 核 的 devfs 和 Linux 2.6 以 后 的 内 核 所 采用 的 udev 设 备 文件 系统 ， 并 分 
析 了 两 者 的 区 别 。5$.4 节 还 重点 介绍 了 Linux 的 设备 张 动 模 型 、sys 氏 以 及 udev 的 规则 编写 。 


5] Linux CPF REE 


5.1.1 文件 操作 系统 调用 


Linux 的 文件 操作 系统 调用 《〈“ 在 Windows 编 程 领域 ， 习 惯 称 操 作 系统 近 供 的 接口 为 API) 涉及 创建 、 打 
开 、 访 号 和 关闭 文件 。 


1 .创建 


ADD Creal (Const char ^rxlename, mode C mode); 


参数 mode 指 定 新 建文 件 的 存 取 权限 ， 它 同 umask 一 起 决定 文件 的 最 终 权 限 (mode&umask) ， 其 中 ， 
umask 代 表 了 文件 在 创建 时 需要 去 挥 的 一 些 存 取 权 限 。umask 可 通过 系统 调用 umask O 来 改变 : 


int umask(int newmask); 


该 调用 将 umask 设 置 为 ewmask， 然 后 返回 旧 的 umask， 它 只 有 影 啊 话 、 写 和 执行 权限 。 


2. 打 开 


int open(const char *pathname, int flags); 
int open(const char *pathname, int flags, mode t mode); 


open O PALA TEX, AH Ppathnamezé4/1]1223] 21 By xf E CRI ERR. REENE 
路 径 下 面 ) ，flags 可 以 是 表 $.1 中 的 一 个 人 或 者 是 几 个 信 的 组 合 


X5. 文件 打开 标志 


标 志 a X 
O RDONLY 以 只 读 的 方式 打开 文件 
O WRONLY 以 只 写 的 方式 打开 文件 
O RDWR 以 读 写 的 方式 打开 一 
O APPEND VB BST RFT FP CH 
O CREAT 创建 一 个 文件 
O EXEC 如 条 使 用 了 O CREAT 而 且 文 件 已 经 存在 ， 就 会 发 生 一 个 错误 
O NOBLOCK 以 非 阻 塞 的 方式 打开 一 个 文件 
O TRUNC 如 果 文 件 已 经 存在 ， 则 删除 文件 的 内 容 | 


O RDONLY、O WRONLY、O RDWR 三 个 标志 只 能 使 用 任意 的 一 个 。 


如 果 使 用 了 O CREATE 标 志 ， 则 使 用 的 水 数 是 int open (const char*pathname, int flags, mode t 
mode) ; 这 个 时 候 我 们 还 有 贾 指 定 mode 标 忘 ， 以 表示 文件 的 访问 权限 。mode 可 以 是 表 5.2 中 所 列 值 的 组 合 。 


45.2 ”文件 访问 权限 


标 E 4 " 
S IRUSR 用 户 可 以 读 
S IWUSR 用 ， 


|) 
j 户 可 以 写 
S IXUSR 用 户 可 以 执行 
jJ 


S_IRWXU 用 户 可 以 谈 、 写 、 执 行 
S_IRGRP 组 可 以 读 

S IWGRP 组 可 以 写 

S IXGRP 组 可 以 执行 

S IRWXG 组 可 以 恋 、 写 、 执 行 
S_IROTH 其 他 人 可 以 读 

S IWOTH 其 他 人 可 以 写 

S IXOTH 其 他 人 可 以 执行 
S_IRWXO 其 他 人 可 以 读 、 写 、 执 行 
S ISUID 设置 用 户 执行 ID 
S_ISGID 设置 组 的 执行 ID 


除了 可 以 通过 上 述 宏 进行 “或 ”地 辑 产生 标志 以 外 ， 我 们 也 可 以 目 己 用 数 子 来 表示 ，Linux 用 5 个 数字 来 
表示 文件 的 各 种 权限 : 第 一 位 表示 设置 用 户 ID; 第 二 位 表示 设置 组 ID; 第 三 位 表示 用 户 自 己 的 权限 位 ; 
此 四 位 表示 组 的 权限 ; 最 后 一 位 表示 其 他 人 的 权限 。 每 个 数字 可 以 取 1 (执行 权限 ) 、2《 写 权限 ) 、 

4《 谈 权限 ) 、0 (无 ) 或 者 是 这 些 值 的 和 和。 例如 ， 要 创建 一 个 用 尸 可 读 、 可 写 、 可 执行 ， 但 古 组 没有 似 
上 腿 ， 其 他 人 可 以 读 、 可 以 执行 的 文件 ， 并 设置 用 尸 ID 人 位， 那么 应 该 使 用 的 模式 是 1 设置 用 刻 ID) 、 


T? 


0 (不 设置 组 ID) 、7 C12244, iX. 5. Ar). 0 (没有 权限 ) 、5 (1+4， 读 、 执 行 ) 即 10705: 


open('" test", O CREAT; 10 705); 


open("test", O CREAT, S IRWXU | S IROTH | S IXOTH | S ISUID ); 


WIR VEST IF RK, open&R C ZoR [B] — OAT, DU ASC TEEN PUE ERSTE SC n] LABIOS] 367] 9C 
件 描述 符 进 行 操 作 来 实现 。 


在 文件 打开 以 后 ， 我 们 才 可 对 文件 进行 读 写 ，Linux 中 提供 文件 读 写 的 系统 调用 是 read、write 函 数 : 


ipt rsad(int td, const Void *Dur, size... length)? 
int WE 1d; Conse vold “Dur, size: © lengli); 


AU. Sýr AA KA, lengthZgZE TP XNA Ce TAH) 。 函 数 read() 实现 从 
FRIS AT E E I A HP is length o r5 Aburi I] EIE DX Hj, RIM ASE Po a. K 
JitwriteSz Bl Elength + ^£ 5 MA bufs H HI XA PRA AAT ILI OCT HR. ANEA 
字 节 数 。 


以 O_CREAT 为 标记 的 open 实 际 上 实现 了 文件 创建 的 功能 ， 因 此 ， 下 面 的 函数 等 同 于 creat〈() 函数 : 


int open(pathname, O CREAT | O WRONLY | O TRUNC, mode); 


4. 定 位 
对 于 随机 文件 ， 我 们 可 以 随机 指定 位 置 进行 读 写 ， 使 用 如 下 函数 进行 定位 : 
和 


lseek〈) 将 文件 谈 写 指针 相对 whence 移 动 ofet 个 字 和 有。 操作 成 功 时 ， 返 回 文件 指针 相对 于 文件 头 的 
位 置 。 参 数 whence 可 使 用 下 述 值 : 


SEEK SET: 相对 文件 开头 

SEEK CUR: 相对 文件 谈 与 指针 的 当前 位 置 

SEEK END: 相对 文件 末尾 

ofRset 可 取 负 值 ， 例 如 下 述 调 用 可 将 文件 指针 相对 当前 位 置 同 前 移动 $ 个 字 节 : 


lseek(fd, -5, SEEK CUR); 


HF lIseek ek Zo BJ 3 IE ASC ta ETAT T OCT SA EL BE id id A BRL ERE CS OCT HZ s 


lseek(fd, 0, SEEK END); 


SKA 


当 我 们 操作 完成 以 后 ， 要 关闭 文件 ， 些 时， 只 要 调 用 close 融 可 以 了 ， 其 中 妈 古 我 们 要 关闭 的 文件 拍 述 


Ar 


TJ: 


int close(int fd); 


例 程 : 编写 一 个 程序 ， 在 当前 目录 下 创建 用 户 可 读 写 文件 hello.txt， 在 其 中 写 入 “Hello，software 
weekly”， 关 闭 该 文件 。 再 炊 打 开 该 文件， 旋 取 其 中 的 内 容 并 输出 在 屏 乔 上 。 


解答 如 代码 清单 $.1。 
代 但 清单 5.1 ” Linux 文件 操作 用 户 空 间 编 程 ( 使 用 系统 调用 ) 


#include <sys/types.h> 
#include <sys/stat.h> 
finclude «fontl.h» 
#include <stdio.h> 
#define LENGTH 100 
main () 
{ 

int fd, len; 

char str[LENGTH]; 


e O tO OO =] oy COM 3 to BO PI 


= H 


fd = open("hello.txt", O CREAT | O RDWR, S IRUSR | S IWUSR); /* 


l2 
Lo 
14 
La 
16 
1 
18 
19 
20 
ZA 
22 
23 
24 


fd, "Hello World", strlen("Hello World")); 


A 
Loy 


hello.txt", O RDWR); 
fd, str, LENGTH); /* 读 取 文件 内 容 */ 


创建 并 打开 文件 */ 

Iit £fd) 4 
write( 
写 入 字符 串 
close( 

) 

fd = open(" 

len = read ( 

str[len] = 


Ee 


Printt("ss\n", Str); 
close(fd); 


} 


i VET 


3 — P teu 


IZ 1T, 


执行 结果 为 输出 “Hello World". 


/* 


5.1.2 C 库 文件 操作 


C 库 困 数 的 文件 操作 实际 上 独立 于 具体 的 操作 系统 平台 ， 不 管 是 在 DOS、Windows、Linux 还 是 在 
VxWorks 中 都 是 这 些 函 数 : 


1 .创建 和 打开 


iLE *~Lopen (const char “path, Const. char *mode); 


fopen O 用 于 打开 指定 文件 flename， 其 中 的 mode 为 打开 模式 ，C 库 图 数 中 文 持 的 打开 模 陈 如 表 S$.3 所 


小。 


425.3 CERAI HERE 


标 志 a 义 
r, rb 以 只 读 方式 打开 
w, wb 以 只 写 方式 打开 。 如 果 文 件 不 存在 ， 则 创建 该 文件 ， 和 否则 文件 被 截断 
a, ab 以 追加 方式 打开 。 如 果 文 件 不 存在 ， 则 创建 该 文件 
rt. rtb, rbt+ 以 谈 写 方式 打开 
w+, w-*b, wht 以 读 写 方式 打开 。 如 果 文 件 不 存在 时 ， 创 建新 文件 ， 和 否则 文件 被 截断 
a+, atb, abt 以 读 和 追加 方式 打开 。 如 果 文 件 不 存在 ， 则 创建 新 文件 


其 中 ，b 用 于 区 分 二 进 制 文件 和 文本 文件 ， 这 一 点 在 DOS、Windows 系 统 中 是 有 区 分 的 ， 但 Linux 个 区 
分 二 进 制 文件 和 文本 文件 。 


C 库 函数 文 持 以 字符 、 字 符 串 等 为 单位 ， 文 持 按照 示 种 格式 进行 文件 的 读 写 ， 这 一 组 函数 为 : 


int fgetc(fiLE *stream); 

int fputc(int c, fiLE *stream); 

char *Igets(char *$. int n, LLLBE ^stream); 

int. f£puts(const char *s, file *stream); 

rnt fprintrf(ribLbs “stream, Const Char “tormaty s=)? 

int. fscanr (I1LE *Stream, Const char *fOrmat, e); 

gize © Iroad (VOLd “ptr; Size C Size, size Lb ny IILE orean); 

Size LL IWIIlte. (CONSE vord “ptr, S1276 C Size; Size X n, TILE *sceream); 


fread O 实现 从 流 Cstream) 中 读 取 n 个 字段 ， 每 个 字段 为 size 字 节 ， 并 将 读 取 的 字段 放 入 ptr 所 指 的 字 
符 数 组 中 ， 返 回 实 际 已 谈 取 的 字段 数 。 当 读 取 的 字段 数 小 于 num 时 ， 可 能 是 在 函数 调用 时 出 现 了 错误 ， 也 
可 能 是 旋 到 了 文件 的 结尾 。 因 此 要 通过 调用 fksof O 和 ferror O 来 判断 。 


write O 实现 从 绥 冲 区 ptr 所 指 的 数组 中 把 n 个 字段 写 到 流 (stream)〉 中 ， 每 个 字段 长 为 size 个 字 节 ， 返 
Sep SAN FER 


Fab, CHerki abe tt Sie SW PAE DLAEZI, HERR AeA: 


int £getpos (ILLE *stream, fpos t ^pos); 
Int fsetpos(rLLE *stream, const IPOS C Tpos)? 


int fseek(fiLE *stream, long offset, int whence); 
3. X Hj] 
AI FIC Eg PRI BK PH OCT TK ze TB. fn] PIRE : 


int fclose (fiLE *stream); 


PRÉ: 将 第 5.1.1 市 中 的 例 程 用 C 库 函数 来 实现 ， 如 代 公 清单 5-2 所 示 。 
代 但 清单 52 Linux L FREH P TE Hte UEH CE KZO 


1 includa <stdio.h> 
2 #define LENGTH 100 
3 main () 


8 LLLE “Las 

6 char str[LENGTH]; 
7 

8 


fd = fopen("hello.txt", "w+");/* 创建 并 打开 文件 */ 
9 1f (fd) 1 


10 fputs("Hello World", fd); /* 写 入 字符 串 */ 
11 fclose (fd); 

12 ] 

13 

14 fd = fopen("hello.txt", "r"); 

15 fgets(str, LENGTH, fd); /* 读 取 文件 内 容 */ 


16 人 
iy, fclose (fd); 


52 Linux X(t At 


5.2.1] LinuxX FA Zt H RKA 


进入 Linux 根 目录 〈 即 “六 ，Linux 文 件 系 统 的 入 口 ， 也 是 处 于 最 高 一 级 的 目录 ) ， 运 行 "s- 命令， 看 
到 Linux 包 含 以 下 日 如 。 


1./bin 
包含 基本 命令 ， 如 1s、cp、mkdir 等 ， 这 个 目录 中 的 文件 都 是 可 执行 的 。 
2./Sbln 


包含 系统 命令 ， 如 modprobe、hwclock、ifeconfig 等 ， 大 多 是 涉及 系统 党 理 的 命令 ， 这 个 目录 中 的 文件 
都 是 可 执行 的 。 


3./dev 
设备 文件 存储 目 孙 ， 应 用 程序 通过 对 这 些 文件 的 谈 写 和 控制 以 访问 实际 的 设备 。 
4./etc 


系统 配置 文件 的 所 在 地 ， 一 些 服务 右 的 配置 文件 也 在 这 里 ， 如 用 户 账 志 及 复合 配置 文件 。busybox 的 
局 动 脚本 也 存放 在 该 目录 。 


5 /lib 
系统 库 文 件 存放 目录 等 。 
6./mnt 


/mmt 这 个 目录 一 般 是 用 于 存放 挂 载 储存 设备 的 挂 载 目录 ， 比 如 含有 cdrom 等 目录 。 可 以 参看 /etc/fstab 的 
定义 。 有 时 我 们 可 以 让 系统 开机 目 动 挂 载 文 件 系 统 ， 并 把 挂 载 把 放 在 这 里 。 


7./opt 
opt 是 “可 选 ” 的 意思 ， 有 些 软件 包 会 被 安装 在 这 里 。 
8 ./proc 


操作 系统 运行 时 ， 进 程 及 内 核 信息 (比如 CPU、 人 硬盘 分 多 、 内 存 信 息 等 ) 存放 在 这 里 。/proc 目 录 为 伪 


文件 系统 proc 的 挂 载 目 孙 ，proc 并 不 是 真正 的 文件 系统 ， 它 存在 于 内 存 之 中 。 
9./tmp 
FAY ITEWE, ANRE, tmp FA RAF BCI YY SCF e 
10./usr 
X^ xe RAIN Ao, COO Pare. HAPET., 
11./var 
var 表 示 的 是 变化 的 意思 ， 这 个 目录 的 内 容 经 第 变动 ， 如 /var 的 /varlog 目 录 被 用 来 存放 系统 日 志 。 
12./sys 


Linux 2.6 以 后 的 凡 核 所 文 持 的 sys 氏 文件 系统 航 上 映射 在 此 目录 上 。Linux 设 备 张 动 借 型 中 的 上 总线、 驱动 
和 设备 都 可 以 在 sys 氏 文件 系统 中 找到 对 应 的 和 点 。 当 站 核 检 名 到 在 系统 中 出 现 了 新 设备 后 ， 内 核 会 在 sys 全 
文件 系统 中 为 访 新 设备 生成 一 项 新 的 记录 。 


5.2.2 Linux 文件 系统 与 议 备 张 动 


图 $.1 所 示 为 Linux 中 虚拟 文件 系统 、 倍 盘 /Flash 文 件 系统 及 一 般 的 设备 文件 与 设备 劲 程序 之 间 的 天 
系 。 


应 用 程序 和 VEFS 之 间 的 接口 是 系统 调用 ， 而 VES 与 文件 系统 以 及 设备 文件 之 间 的 接口 是 file operations 
结构 体 成 员 困 数 ， 这 个 结构 体 包 念 对 文件 进行 打开 、 关 团 、 恋 写 、 控 制 的 一 系列 成 员 图 数 ， 天 系 如 网 5.2 
所 示 。 


由 于 字符 设备 的 上 层 没有 类 似 于 磁盘 的 ext2 等 文件 系统 ， 所 以 字符 设备 的 fle_ operations EX, i R BUM EL 
接 由 设备 驱动 提供 了 ， 在 稍 后 的 第 6 章 ， 将 会 看 到 fle operations 正 是 字符 设备 驱动 的 核心 。 块 设备 有 两 种 
访问 方法 ， 一 种 方法 是 不 通过 文件 系统 直接 访问 裸 设 备 ， 在 Linux 内 核实 现 了 统一 的 def blk fops 这 一 
file operations， 它 的 源 代 人 码 位 于 ff/block_dev.c， 所 以 当 我 们 运行 类似 于 “dd if-/dev/sdblof-sdbl.img" KIMS 
把 整个 /dev/sdb1 亿 分 区 复制 到 sdb1.img 的 时 候 ， 内 核 走 的 古 def_blk_fops 这 个 和 包 e_operations; 万 外 一 种 方法 
过 文件 系统 来 访问 块 设备 ，file_operations 的 实现 则 位 于 文件 系统 内 ， 文 件 系统 会 把 针对 文件 的 读 写 转 
换 为 针对 块 设备 原始 而 区 的 谈 写 。ext2、fat、Btr 等 文件 系统 中 会 实现 针对 VFS 的 file operations 成 员 函 
数 ， 设 备 驱 动 层 将 看 不 到 file_operations 的 存在 。 





图 5.1 文件 系统 与 设备 驱动 之 则 的 关系 


fd=open("/dev/xxx",O RDWR,0); 


Linux 内 核 


iE tir SK oY pe AX Xxx read 
| EG n 


图 $.2 ”应 用 程序 、VEFS 与 设备 驱动 











在 设备 驱动 程序 的 设计 中 ， 一 般 而 言 ， 会 关心 人 le 和 inode 这 两 个 结构 体 。 


1.file 结 构 体 


file 结 构 体 代表 一 个 打开 的 文件 ， 系 统 中 每 个 打开 的 文件 在 内 核 空间 都 有 一 个 关联 的 struct file。 它 由 内 
核 在 打开 文件 时 创建 ， 并 传递 给 在 文件 上 进行 操作 的 任何 函数 。 在 文件 的 所 有 实例 都 关闭 后 ， 内 核 释 放 这 
个 数据 结构 。 在 内 核 和 驱动 源 代码 中 ，struct file 的 指针 通常 被 命名 为 fle 或 flp〈 即 file pointer) 。 人 代码 清单 
5.3 给 出 了 文件 结构 体 的 定义 。 


代码 清单 5.3 ”文件 结构 体 


EEC wae: { 

2 union { 

3 Struct. Llig node ED Ju 

4 SUtPUCt rou mead fu x+cuneaa; 

S ) fu; 

6 struct path f path; 

7 #define f dentry t path.denbry 

8 struct inode xf inode; /* cached value */ 
2) Comet. Struct iile Opeétgdtrons^t OD /* 和 文件 关联 的 操作 * / 
10 
ld 7% 


12 ES 
13 * Must not be taken from IRQ context. 


14 ny 

15 Spinlock t L Lock; 

16 atomic long t If Count; 

17 unsigned int f clag / * 文 件 标 志 ,， 如 O RDONLY、O NONBLOCK, O SYNC*/ 
18 fmode t f mode; / * 文 件 读 / 写 模式 , FMODE READ 和 FMODE WRITE*/ 
Lo struct mutex rT, POS lock, 

20. loff t pon /* 当前 读 写 位 置 */ 
2 

22. CONOC SUEHUCL Cred Aq Ced; 

29. JOXEUCLt thle Ta DUITE way 

24 

25 u64 | WD 

20 $rl1Lder CONTIG SECURITY 

21 void ^ Ge CUCL? 

28 #endif 

29 /* needed for tty driver, and maybe others */ 

30 void *private data; / * 文 件 私 有 数据 * / 

31 


32 #ifdef CONfiG EPOLL 
33 /* Used by fs/eventpoll.c to link all the hooks to this file */ 


34 struct lisi head rf ep links; 

Jo Seruce. liol head L Gile LLINK 

36 #endif /* #ifdef CONfiG EPOLL */ 

2L Struct address spaocs^l Mapping; 

38 } attribute ((aligned(4))); /* lest something weird decides that 2 is OK */ 


文件 读 / 写 模式 mode、 标 志 f flags EWR IKK CAI VS. TURA SRI private data 在 设备 驱动 
中 被 广泛 应 用 ， 大 多 修 指 问 设 备 驱 动 目 定 义 以 用 于 摘 述 设备 的 结构 体 。 


下 面 的 代码 可 用 于 判断 以 阻 突 还 十 非 阻 和 里 方 式 打 开设 备 文件 : 


if (file->f flags & O NONBLOCK) /* 非 阻塞 */ 
pr debug("open: non-blocking An"); 

else /* 阻塞 */ 
pr debug("open: blocking An"); 


2 inodeZi T4 fk 


VES inode 包 含 文件 访问 权限 、 属 主 、 组 、 大 小 、 生 成 时 间 、 访 问 时 间 、 最 后 修改 时 间 等 信息 。 它 是 
Linux 管 理 文 件 系统 的 最 基本 单位 ， 也 是 文件 系统 连接 任何 子 目 孙 、 文 件 的 桥 染 ，inode 结 构 体 的 定义 如 代 
人 码 清单 5.4 所 示 。 


代码 清单 $.4 ”inode 结 构 体 


L Struct. inode 1 
2 m 
8 umode t i mode; /* inode 的 权限 */ 
4 uid t X uid; /* inode 拥 有 者 的 id */ 
B gid t X gio /* inode 所 属 的 群 组 jd */ 
6 dev t i rdev; /* 若是 设备 文件 ， 此 字段 将 记录 设备 的 设备 号 */ 
7 loff t i size; /* 1nodeBUHBDB AUN */ 
8 
9 struct timespec i atime; /* inode 最 近 一 次 的 存 取 时 间 */ 
10 struct timespec i mtime; /* ijnode 最 近 一 次 的 修改 时 间 */ 
11 struct timespec i ctime; /* inode 的 产生 时 间 */ 
12 
1.2 unsigned int Y JU DIG 
14 bikent t i blocks; /* Inoaqe 所 使 用 的 pocK 数 ， 一 个 pLOcCK 为 9512 字 节 */ 
15 union { 
1:5 struct pipe inode inmo =L pipe; 
17 struct DIOCK device “1. Ddev; 
18 /* 若是 块 设备 ， 为 其 对 应 的 pLlocKk device 结 构 体 指针 */ 
193 struet cdey *i_cdev; /* 若是 字符 设备 ， 为 其 对 应 的 Cdev 结 构 体 指针 */ 
20 } 
21 
22 ]; 


对 于 表示 设备 文件 的 inode 结 构 ，i rdev 字 上 段 包 含 设备 编写 。Linux 内 核 人 设备 编写 分 为 主 设 备 编 本 和 次 设 
备 编号 ， 前 者 为 dev {t 的 高 12 位 ， 后 者 为 dev {t 的 低 20 位 。 下 列 操 作用 于 从 一 个 inode 中 获得 主 设 备 号 和 座 议 
A uy: 


unsigned int iminor(struct inode *inode); 
unsigned int imajor(struct inode *inode); 


谷 看 /proc/devices 文 件 可 以 获知 系统 中 注册 的 设备 ， 第 1 列 为 主 设备 号 ， 第 2 列 为 设备 和 名， 如 : 


Character devices: 
1 mem 
pty 
ttyp 
/dev/vc/0 
tty 
/dev/tty 
/dev/console 
/dev/ptmx 
1 vcs 
10 misc 
13 input 
2l Sg 
29 fb 
128 ptm 
136 pts 
171 ieeel1394 
180 usb 
Led usb: device 
Block devices: 
1 ramdisk 
2 fd 
8 sd 
9 md 
22 idel 


OI OUI UI A A W DN 


BA/dev Hs& nf EX AL EH ee Boot. AS 2 S HARANERA RACE 


EE 


人 = l. root uucp 4, 64 Jan 30 2003 /dev/ttySO 
brw-rw---- 1 root disk 8, 0 Jan 30 2003 /dev/sda 


主 设备 号 是 与 驱动 对 应 的 概念 ， 同 一 奖 设 备 一 般 使 用 相同 的 主 设备 号 ， 不 同 奖 的 设备 一 般 使 用 不 同 的 
主 设备 号 〈 但 是 也 不 排除 在 同一 主 设 备 号 下 包 人 台 有 一 定 天 异 的 设备 ) 。 因 为 同一 驱动 可 文 持 多 个 同 奖 议 
备 ， 因 此 用 次 设备 气 来 描述 使 用 访 驱 动 的 设备 的 序 亏 ， 序 号 一 般 从 0 开始 。 

^ fZ Documents H 3X F Hjdevices.txt X: ff-d533^ f Linuxix $$ SW Bud, C FALANANA (the Linux 


Assigned Names and Numbers authority, PX 7yjhttp://www.lanana.org/) 组 织 维护 ，Torben 


Mathiasen (device@lanana.org) 是 其 中 的 主要 维护 者 。 


5.3 devfs 


devs (设备 文件 系统 ) zi Hd Linux 2.4 AZ AA, SAN RYE e LIS T Sever, "BU SU 
租 设 备 张 动 程 序 能 目 主 地 管理 目 己 的 设备 文件 。 有 基体 来 说 ，devf 具 有 如 下 优点 。 


1) 可 以 退 过 程序 在 设备 初 妈 化 时 在 /dev 目 录 下 创建 设备 文件 ， 凶 载 设 备 时 将 它 删 除 。 
2) 设备 驱动 程序 可 以 指定 设备 名 、 所 有 者 和 权限 位 ， 用 户 空 间 程 序 仍 可 以 修改 所 有 者 和 权限 位 。 


3) 不 再 需要 为 设备 驱动 程序 分 配 主 设备 写 以 及 处 理 炊 设备 写 ， 在 程序 中 可 以 了 直接 给 
register chrdev () 传 违 0 主 设备 号 以 获得 可 用 的 主 设备 写 ， 并 在 devfs_register() 中 指定 次 设备 号 。 


驱动 程序 应 调用 下 面 这 些 孙 数 来 进行 设备 文件 的 创建 和 撤销 工作 。 


/* 创建 设备 目录 */ 

devis handle t devig mk dauridevis Rhandie C day, Const Char “natic, VoLg *1nto); 

/* 创建 设备 文件 */ 

devis handle t devis regrster(devrs handle t dir, const Char “name, unsigned 
int. Ilags, Unsigned int major, unsigned ant minor, umode t mode, void *ops; 
vöid *inio)? 

/* 撤销 设备 文件 */ 

void devis unregister(devrls handle ue); 


在 Linux 2.41] V Koa Fins AP ATER ERI. EER R CUP GU SE ASR Dt fi OCT E ce A 2S OK H3 2T TH. 
得 大 力 推 荐 的 好 方法 。 人 代码 清单 5.5 给 出 了 一 个 使 用 dev 氏 的 范例 。 


代码 清单 $S.$ dev 氏 的 使 用 范例 


Ll Static devio handle t devis handle; 


2 Scarl.e INE . Inte xxx LImnlt(votdo) 

3 4 

4 int ret; 

5 inL iz 

6 /* 在 内 核 中 注册 设备 */ 

ret = register chrdev(XXX MAJOR, DEVICE NAME, &xxx fops); 
8 if (ret < O) { 

9 printk (DEVICE NAME " can't register major number\n"); 
10 return ret; 

LUN ) 

12 /* 创建 设备 文件 */ 

13 devfs handle -devfs register(NULL, DEVICE NAME, DEVFS FL DEFAULT, 
14 XXX MAJOR, 0, S IFCHR | S IRUSR | S IWUSR, &xxx fops, NULL); 
dc bau 

16 printk(DEVICE NAME " initialized\n"); 

17 return 0; 

18 } 

19 
20 static void exit xxx exit(void) 
Zl 4 
zd devfs unregister(devfs handle); /* 撤销 设备 文件 */ 
23 unregister chrdev(XXX MAJOR, DEVICE NAME);  /* 注销 设备 */ 
24 } 
ZO 


26 module 1niU(xxx snarl); 
27 module exit (xxx exit); 


代码 中 第 7 行 和 第 23 行 分 别 用 于 注册 和 注销 字符 设备 ， 使 用 的 register chrdev〈) 和 
unregister chrdev () 在 Linux 2.6 以 后 的 内 核 中 仍 补 采用。 第 13 和 22 行 分 别 用 于 创建 和 删除 dev 人 文件 于 


点 ， 这 些 API 已 经 被 删除 了 。 


5.4 udev F TERRE EE 
54.1 udev5devfsB IX jl 


尽管 devfs 有 这 样 和 那样 的 优点 ， 但 是 ， 在 Linux 2.6 内 核 中 ，devfs 被 认为 是 过 时 的 方法 ， 并 最 终 被 抛 
FS, udev f "E. Linux VFS 内 核 维护 者 Al Viro 指 出 了 几 扣 udev 取 代 devfs 的 原因 : 


12 devfs 所 做 的 工作 被 确信 可 以 在 用 尸 态 来 完成 。 

2) devfs 倍 加 入 内 核 之 时 ， 大 家 期 望 它 的 质量 可 以 迎 尖 赶 上 。 

3) 友 现 devfs 有 一些 可 修复 和 无 法 修复 的 bug。 

4) 对 于 可 修复 的 bug， 几 个 月 前 就 已 经 被 修复 了 ， 其 维护 者 认为 一 切 民 好 。 
50 对 于 后 者 ， 在 相当 长 的 一 段 时 间 内 没有 改观 。 

6) devfs 的 维护 者 和 作者 对 它 感到 失明 并 且 已 经 停止 了 对 代码 的 维护 工作 。 


Linux TZ HJ PA rv. Richard Gooch (devfs 的 作者 ) 和 Greg Kroah-Hartman (sys 人 的 主要 作者 ) Wi 
devfs/udev 进 行 了 激烈 的 争论 : 


Greg: Richard had stated that udev was a proper replacement for devfs. 

Richard: Well, that's news to me! 

Greg: devís should be taken out because policy should exist In userspace and not in the kernel. 
Richard: sysfs, developed In large part by Greg, also implemented policy in the kernel. 
Greg: devfs was broken and unfixable 

Richard: No proof.Never say never... 

XX BECHER ve HI RR VEAI P: 

Greg: Richard 已 经 指出 ，udev 是 devR 合 适 的 符 代 品 。 

Richard: 哦 ， 我 怎么 不 知道 ? 


Greg: devs MIZ FR AARMA TF H N T A AAE A t T. 


Richard: 哦 ， 由 Greg 完 成 大 部 分 工作 的 sysfs 也 在 内 核 中 实现 了 开 略 。 
Greg: devfs 很 紧 脚 ， 也 不 稳定 。 
Richard: WW, uE, WAARA... 


在 Richard Gooch 和 Greg Kroah-Hartman 4-16 F, Greg Kroah-Hartman(# H HEE W A HE E F 
policy (REK) 不 能 位 于 内 核 空间 中 。Linux 设 计 中 强调 的 一 个 基本 观点 是 机 制 和 策略 的 分 离 。 机 制 是 做 某 
样 事情 的 固定 步 又、 方法， 而 策略 就 是 每 一 个 步骤 所 采取 的 不 同方 式 。 机 制 是 相对 固定 的 ， 而 每 个 步骤 采 
用 的 策略 是 不 固定 的 。 机 制 是 稳定 的 ， 而 策略 则 是 灵活 的 ， 因 此 ， 在 Linux 内 核 中 ， 不 应 该 实现 策略 。 


比如 Linux 提 供 API 可 以 让 人 把 线程 的 优先 级 调 高 或 者 调 低 ， 或 者 调整 调度 略 为 SCHED FIFO 什 么 
的 ， 但 是 Linux 内 核 本 身 却 不 管 谁 高 谁 低 。 提 供 API 属 于 机 制 ， 谁 高 谁 低 这 属于 策略 ， 所 以 应 该 是 应 用 程序 
自己 去 告诉 内 核 要 高 或 低 ， 而 内 核 不 管 这 些 杂 事 。 同 理 ，Greg Kroah-Hartman 认 为 ， 属 于 策略 的 东西 应 该 
被 移 到 用 户 空 间 中 ， 谁 爱 给 哪个 设备 创建 什么 名 字 或 者 想 做 更 多 的 处 理 ， 谁 自己 去 设 定 。 内 核 上 只管 把 这 些 
言 息 告 诉 用 户 就 行 了 。 这 就 是 位 于 内 核 空间 的 devf8 应 该 被 位 于 用 户 空间 的 udev 取 代 的 原因 ， 应 该 devfs 管 
了 一 些 不 靠 谱 的 事情 。 


下 面 举 一 个 通俗 的 例子 来 理解 udev 设 计 的 出 发 点 。 以 谈 恋 爱 为 例 ，Greg Kroah-Hartman 认 为 ， 可 以 让 
内 核 近 供 谈 恋爱 的 机 制 ， 但 是 不 能 在 内 核 空间 中 限制 跟 谁 次 恋 妥 ， 不 能 把 谈 恋 爱 的 人 略 放 在 内 核 空 间 。 
为 有 悉 爱 是 目 由 的 ， 用 户 应 该 可 以 在 用 尸 空 间 中 实现 “ 柬 卜 日 采 ， 各 有 所 爱 ” 的 理想 ， 可 以 根据 对 方 的 外 貌 、 
籍 员 、 性 格 等 自由 选择 。 对 应 devfs 而 言 ， 第 1 个 相亲 的 女孩 锐 命 名 为 /dev/girl0， 第 2 个 相 羔 的 女孩 馈 命 名 
为 /dev/girl1， 以 此 类 推 。 而 在 用 尸 空间 实现 的 udev 则 可 以 使 得 用 尸 实现 这 样 的 目 由 : AEP YR PRE Ke 


第 儿 个 ， 只 要 它 写 你 定义 的 规则 人 符合， 痢 命 名 为 /dev/mygirl! 


udev 完 全 在 用 己 态 工作 ， 利 用 设备 加 入 或 移 除 时 内 核 所 肥大 的 热 择 拔 事件 《Hotplug Event) 来 工作 。 
在 热 插 拔 时 ， 设 备 的 详细 信息 会 由 内 核 通 过 netlink 克 接 衬 肥 大 出 来 ， 及 出 的 事情 叫 uevent。udev 的 设备 命 
名 全 略 、 权 限 控制 和 事件 处 理 都 是 在 用 户 态 下 完成 的 ， 它 利用 从 和 内核 收 到 的 信息 来 进行 创建 设备 文件 下 局 
等 工作 。 代 人 码 清 单 $.6 给 出 了 从 内 核 通过 netlink 接 收 热 插 拔 事件 并 证 刷 挥 的 范例 ，udev 有 条 用 了 关 似 的 做 法 。 


代码 清单 5.6 ”netlink 的 使 用 范例 


#include <linux/netlink.h> 


1 

2 

3 static void die(char *s) 
a 

5 write(27; 8, strlen(s)); 
6 exit(1); 

7 } 

8 


Lane, Maw Cnc acge,. char: “argv |) 
10 { 
LE ,SEeUCE Sockadgreit: mis; 
12. Sbeuee, poll id: word; 
ld har pie. 7 i 
14 


15. 77 Open hotplug event netlink socket 


LT. MeEmset (ems. Oy GEZOS Truet GOC kaddar nd)» 
ie. mlsonli family S AP NETIDLINK; 

Io. Wl nl pace /tor 

20" Dison groupe = =; 


22 pfd.events = POLLIN; 
240 pidsid = SOCkeUt(PE NETLINK; SOCK. DGRAM, NETLINK KOBJECT URVENT); 


24 if (pfd.fd == -1) 
25 die("Not rootin": 
26 


21] f/f Listen to netlink socket 
20. I qornotprtoefoge (Ord “ysis, SIZO (suruce GoCckeddr mb). 


29 die('"Bind farled\n") 

20. while tel. POLLAS BEd; ly 193 4 
31 INL I. dem - pecv (pide fd, Dury Seo (OU MSG DONIWAEIT); 
32 if (len == -1) 

33 dive( "recy wi") = 

34 

39 LL Printe the data to stdout. 
36 i = 0; 

3 while (i « len) { 

38 人 
39 p ue Str ben bur Se) Ve. Ls 
40 } 

41 } 

42 die("poll\n"); 

43 


44 // Dear gcc: shut up. 
45 return 0; 


编 详 上 述 程序 并 运行 ， 把 Apple Facetime HD Camera USB 摄 像 头 插入 Ubuntu， 访 程序 会 dump 类 似 如 下 
的 信息 : 


ACTION=add 

DEVLINKS-/dev/input/by-id/usb-Apple Inc. FaceTime HD Camera Built-in 
CC2B2FOTLSDG6LLO0-event-if00 /dev/input/by- path/pci- 0000:00:0b.0-usb-0:1:1.0-event 
DEVNAME=/dev/input/eventé 
DEVPATH-/devrces/DpDor0000:00/0000:00:$:0D.07uSbTl/TI-rI/1—15:1:0/10pugt/1n0puv6jyevente 
ID BUS-usb 

LED NEUSS 

LD INPUT KEY=1 

ID MODEl=Facelime HD Camera -Bunlt-rn 

ID MODEL ENC- FaceTime\x20HD\x20Camera\x20\x28Built-in\x29 

ID MODEL ID=8509 

ED. PAISNepor-0UDDPSDUSOD.uUeud sposi: 0 

ID PATH TAG-pci- 


udev 就 是 采用 这 种 方式 接收 netlink 消 息 ， 并 根据 它 的 内 容 和 用 户 设置 给 udev 的 规则 做 匹配 来 进行 工作 
的 。 这 里 有 一 个 问题 ， 就 是 冷 插 拔 的 设备 怎么 办 ? 冷 插 拔 的 设备 在 开机 时 就 存在 ， 在 udev 启 动 前 已 经 被 插 
入 了 。 对 于 冷 手 拔 的 设备 ，Linux 内 核 提 供 了 sysfs 下 面 一 个 uevent 衣 点， 可 以 往 访 市 点 写 一 个 “add”， 导 伊 
内 核 重 新 发 送 netlink， 之 后 udev 就 可 以 收 到 冷 插 拔 的 netlink 消 息 了 。 我 们 还 是 运行 代码 清单 5.6 的 程序 ， 并 
手动 往 /sys/module/psmouse/uevent 写 一 个 “add”， 上 述 程序 会 dump 出 来 这 样 的 信息 : 


ACTION=add 
DEVPATH=/module/psmouse 
SEQNUM=1 682 

SUBSYSTEM=module 

UDEV LOG-3 

USEC INITIALIZED-220903546792 


devfs 与 udev 的 男 一 个 显 兰 区 别 在 于 : MHdevfs, 24—7P3EASTE4EWJ/dev i AFAR, devfsHe 
动 加 载 对 应 的 驱动 ， 而 udev 则 不 这 么 做 。 这 是 因为 udev 鸭 设计 者 认为 Linux 应 该 在 设备 被 发 现 的 时 候 加 载 


驱动 模块 ， 而 不 是 当 它 被 访问 的 时 候 。udev 的 设计 者 认为 devfs 所 提供 的 打开 /dev 广 点 时 上 自动 加 载 驱 动 的 功 
能 对 一 个 配置 正确 的 计算 机 来 说 是 多 余 的 。 系 统 中 所 有 的 设备 都 应 该 产生 热 酝 拔 事件 并 加 载 恰当 的 张 动 ， 
而 udev 能 注意 到 这 点 并 且 为 它 创 建 对 应 的 设备 六 扩 。 


5.4.2. sys 人 文件 系统 与 Linux 设 备 模型 


Linux 2.6 以 后 的 内 核 引 入 了 sysfs 文 件 系 统 ，sysfs 修 看 成 是 与 proc、devfs 和 devpty 辐 类 别 的 文件 系统 ， 
该 文件 系统 是 一 个 虚拟 的 文件 系统 ， 它 可 以 产生 一 个 包括 所 有 系统 便 件 的 层级 视图 ， 与 提供 进程 和 状态 信 
I proc X fF At 43 2810 


sysfs 把 连接 在 系统 上 的 设备 和 忆 线 组 织 成 为 一 个 分 级 的 文件 ， 它 们 可 以 由 用 户 空 间 存 取 ， 癌 用户 空 间 
吐出 内 核 数 据 结 构 以 及 它们 的 属性 。sysfs 的 一 个 目的 束 是 展示 设备 驱动 模型 中 各 组 件 的 层次 关系， 其 项 级 


目录 包括 block、bus、dev、devices、class、 信 、kernel、power 和 firmware 等 。 


block 目 录 包 含 所 有 的 块 设备 ，devices 目 录 包 含 系 统 所 有 的 设备 ， 并 根据 设备 挂 接 的 电线 类 型 组 织 成 
层次 结构 ; bus 目录 包 含 系统 中 所 有 的 总 线 类 型 ，class 目 录 包 含 系统 中 的 设备 类 型 (如 网 卡 设备 、 声 卡 设 
备 、 输 入 设备 等 ) 。 在 /sys 目 隶 下 运行 tree 会 得 到 一 个 相当 长 的 树 形 目录 ， 下 面 摘 取 一 部 分 


.I— block| | 一 loopO -> ../devices/virtual/block/loop0| I— loopl -> ../devices/virtual/block/loopl| I— loopz 
.. . | bus| I—— ac97| | L— devices| | I-- drivers| | drivers autoprobe| | L[— drivers probe| 
P I— i2c| | I—— devices| | | 一 drivers| | drivers autoprobe| | I-- drivers probe| | L— ue 
.. . |— class| ata device| | [— dev1.0 -> ../../devices/pci0000:00/0000:00:01.1/atal/linkl/devl.0/ata devi 
. . — dev| I— block| | — 1:0 -> ../../devices/virtual/block/ram0| | 1:1 -> ../../devices/virtual/bl 
sal L— char| — 10:1 -> ../../devices/virtual/misc/psaux | 10:184 -> ../../devices/virtual/misc/ 
. . — devices| I— breakpoint| | I— power | | I-- subsystem -> ../../bus/event source| | L— type| | 
...|— firmware 
.. — fs| I— cgroup| I-- ecryptfs| | L— version| I—— ext4| | -一 features| | L— sdal| | L— sdb. 
. . — module] I-- 8250| | I—— parameters | | L uevent| L— 8250 core| | I-—- parameters| | L— uevelr 
. . — power 

disk 


— image size 

I—— pm async 

| 一 reserved size 
一 resume 

L— state 

I[-—— wake lock 

I-- wake unlock 
L— wakeup count 


在 /$Sys/bus 的 pci 等 子 目 了 永 下 ， 又 会 再 分 出 drivers 和 devices 目 了 永 ， 而 devices 目 录 中 的 文件 是 对 /sys/devices 
目录 中 文件 的 从 号 链接 。 同 样 地 ，/sys/class 目 录 下 也 包含 计 多 对 /sys/devices 下 文件 的 链接 。 如 图 5.3 所 示 ， 
Linux 设 备 檬 型 与 设备 、 驱 动 、 忌 线 和 类 的 现实 状况 是 直接 对 应 的 ， 也 正人 符合 Linux 2.6 以 后 内 核 的 设备 模 
型 。 





儿 $.3 ”Linux 设备 模型 


中 看 拉 术 的 个 断 进步 ， 系 统 的 拓扑 结构 越 来 越 复 森 ， 对 入 能 电源 官 理 、 热 搬 拔 以 及 即 插 即 用 的 支持 要 


KERKE, Linux 2.4 内 核 已 经 难以 满足 这 些 需求 。 为 适应 这 种 形势 的 需要 ，Linux 2.6 以 后 的 内 核 开 友 
了 了 上述 全 新 的 设备 、 忆 线 、 类 和 驱动 环 坏 相 扣 的 设备 柑 型 。 图 5.4 形 象 地 表示 了 Linux 驱 动 模型 中 设备 、 忆 
线 和 类 之 间 的 天 系 。 


水 果 类 





图 5.4 ”Linux 驱 动 模 型 中 设备 、 忌 线 和 类 的 天 系 


大 多 数 情况 下 ，Linux 2.6 以 后 的 内 核 中 的 设备 驱动 核心 层 代 码 作 为 “ 菩 后 大 佬 ”可 处 理 好 这 些 天 系 ， 内 
核 中 的 总 线 和 其 他 内 核子 系统 会 完成 与 设备 模型 的 交互 ， 这 使 得 驱动 工程 师 在 编写 奔 层 驱动 的 时 候 几 平 不 
需要 关心 设备 模型 ， 只 需要 按照 每 个 框架 的 要 求 ,，“ 吉 此 式 ”地 填充 xxx driver 里 面 的 各 种 回调 函数 ，xxx 古 
总 线 的 名 字 。 


在 Linux 内 核 中 ， 分 别 使 用 bus type. device driver 和 和 device 来 描述 总 线 、 驱 动 和 设备 ， 这 3 个 结构 体 定 
义 于 include/linux/device.h 头 文件 中 ， 其 定义 如 代码 清单 $.7 所 示 。 


代码 清单 $S.7 bus type. device driver 和 device 结 构 体 


L struct Dus type 1 
2 const Char *name; 
E Conse Char ^dev name; 
4 struct device ded COOL 
5 struct device attribute *dev attrs; /* use dev groups instead */ 
6 CONSE Struct attribute. Group ““bus groups 
7 Const Struct attribure group *~*dev Groupe; 
8 Gonst Struct attribute group **drv groups; 
9 
10 it ("ma ehn) (Struct device dev, Struct device driver: *drv); 
11 lut (*uevenb)(struct device “dev, Struct Koby uevent env “eny) ; 
t2 int (*probe) (struct device *dev); 
13 int. (*remove) (Struct device ^dev); 
14 void (*shutdown) (struct device *dev); 
LS 
16 int (*online) (struct device *dev); 
1.7 int (*offline) (struct device *dev); 
18 
19 mt. (*suspend)(istruct device *dev, pm message ©. Stare), 
20 int (*resume) (struct device *dev); 
21 
22 const struct dev pm Ops “pm, 
23 
24 struct iommu ops *iommu Oops; 
23 
26 SULUCE. SUDSYS Private "p; 
E struct Lock Class key lock Key; 


29 
| 


2d const char *name; 

32 SeLucl DU ADS TOUS 

33 

34 struct module *owner; 

35 CONSE ‘char *mod name; /* used. for burltqin modules: *7 
36 

S bool suppress bind attrs; /* disables bind/unband via Systs. */ 
38 

o9 CO EEC ET device x "OL maton table 

40 CONS. “SUrucek. acpi. device: sd *acpa Maven: tabte, 

41 

42 int (*probe) (struct device *dev); 

23 int (*remove) (struct device *dev); 

44 void (*shutdown) (struct device *dev); 

45 Imc (Suspend): “(suruct device “dev. Tn Message... “Svare), 
46 int (*resume) (struct device *dev); 

4] CONSU Somer ALCIDE group *505OBUDS. 

48 

49 CONSE SULucek Gev pm OPS pm; 

50 

Sal SIIUCL driver Privato ”0 

52. TF 

53 

54 struct device { 

55 struct device *parent; 

56 

SIISLDPHOLDddevrloe Private "pe 

58 

O9 struct kobject.Jkobj; 

o0 const char *init name; /* initial name of the device */ 
oJ QORSUC SUCPIOL-device.type "type; 

62 

63 struct mutex mutex?/^ mutex LO Synchronize oalls to 

64 * its driver. 

65 "y 

66 

oX Struct bus type + Dus? |* type- Of bus device aus’ om */ 
OO SU ruck, device Criver SUPINE /* which driver has allocated this 
69 device y 

TO” FOL altro Caos /* Platform specific data, device 
ell Core doesn’ ©: touch Xt *y 


I2 SUrüuct dev pm zinfopower; 

to Struct dev pm domain*pm domain; 
74 

1b $srlfdef CONTIG PINCTRL 

TO SELUCE dev prm nro Dcus; 


77 +#endif 

T9 

79 #ifdef CONfiG NUMA 

OD We numa node; /* NUMA node this device is close to */ 
81 #endif 

82 u64 *dma mask; /* dma mask (if dma'able device) */ 
83 u64 coherent dma mask;/* Like dma mask, but for 

84 alloc coherent: Mappings -as 

85 not all hardware supports 

86 64 bit addresses for consistent 

87 allocations such descriptors. */ 

88 

59 Struct device dha parameters dma Parme, 

90 

91 struct list head dma pools; /* dma pools (if dma'ble) */ 

92 

95 Struce. uma coherent mem *dma mem; /* internal for coherent mem 
94 override */ 

95 #ifdef CONfiG DMA CMA 

96 SCLUCL. CMa. Sema area; /* contiguous memory area for dma 
97 allocations */ 

98 #endif 


99: 4" arch Specific additions ~y 
LUO Struct dev archdataarchdaua; 


EOT 

102 Struct device node POL. mode; /* associated device tree node */ 
LOS: SELUCL acpri dev node acpi node; /* associated ACPI device node */ 
104 

105 dev t devt; /* dev t, creates the sysfs "dev" */ 
TOG- 70:92 id; [7 device instance */ 

PIT 

LOG Spin lock. t devres look; 

L09 Seruer lus head devres. Nead; 

110 

Ti Servet, Kirst. node knode. (class; 

112 eee class *elass; 

115 CODSUISDLFIUCE oltre Group **9r90ps; L* optional groups. */ 

114 


ll» vord(^release) (Struct: device "*"dev);s 
llo struct rommu group *iommu group; 


117 


118. boo Ofllrne disabled; 
119 boo offline:1; 
120 s 


device_driver 和 device 分 别 表 示 驱 动 和 设备 ， 而 这 两 者 都 必须 依附 于 一 种 忌 线 ， 因 此 都 包含 struct 


bus_type 指 针 。 在 Linux 内 核 中 ， 设 备 和 驱动 是 分 开 注册 的 ， 注 册 1 个 设备 的 时 候 ， 并 不 需要 驱动 已 经 存 


在 ， 而 1 个 驱动 被 注册 的 时 候 ， 也 不 需要 对 应 的 设备 已 经 被 注册 。 设 备 和 驱动 各 自 涌 向 内 核 ， 而 每 个 设备 
和 驱动 涌 入 内 核 的 时 候 ， 都 会 去 寻找 自己 的 另 一 半 ， 而 正 是 bus_type 的 match O 成 员 函 数 将 两 者 捆绑 在 一 








起 。 简 单 地 说 ， 设 备 和 驱动 就 是 红尘 中 漂浮 的 男女 ， 而 bus type 的 match O 则 是 牵引 红线 的 月 老 ， 它 可 以 
识 列 什么 设备 与 什么 驱动 是 可 配对 的 。 一 旦 配对 成 功 ，xxx driver 的 probe O SETA Goose EA 


如 platform、Ppci、i2c、spi、usb 等 ) 。 

注意 : 总 线 、 张 动 和 设备 最 终 都 会 洛 实 为 sys 和 中 的 1 个 目录 ， 因 为 进一步 退 踩 代 但 会 及 现 ， 它 们 实际 
上 都 可 以 认为 是 kobject 的 派生 类 ，kobject 可 看 作 是 所 有 总 线 、 设 备 和 驱动 的 抽象 基 类 ，1 个 kobject 对 应 
sysfs IJ LAS Hae 


总 线 、 设 备 和 张 动 中 的 各 个 attribute 则 直接 洛 实 为 sys 氏 中 的 1 个 文件 ，attribute 会 伴随 着 show ©) 和 
store O 这 两 个 函数 ， 分 别 用 于 读 写 该 attribute 对 应 的 sys 人 文件， 代码 清 蛙 5.8 给 出 了 attribute、 


bus attribute. driver attribute#lldevice attribute 这 几 个 结构 体 的 定义 。 


代码 清单 5.8_ attribute. bus attribute. driver attribute 和 device attribute 结 构 体 


L Struct attribute i| 

2 const char *name; 

3 umode t mode; 

4 #ifdef CONfiG DEBUG LOCK ALLOC 

S bool Ignore loockdeptrl 

6 struct lock class key *key; 

J struct Lock Class key skey; 

8 #endif 

9 FF 

LU 

LL Serue. bus. acerabuce: { 

12 struct attribute attr; 

1 oplze C oo (Soc Dus type “bus, char "Dury 

14 Size L (*SLODe)TSLEHueuo bus type “bus, Cons: Chadar *DUL, Size D counc); 
Lo ps 

16 

Lf SUrUcUt driver abrrabuce: 4 

18 struct attribute attr; 

19 osie p (fonon) (Struct device driver “driver, char “bul); 
20 Seize. © ("O LOrE] (S TUC Cevice Craver. “driver; Cons: Cher “bur, 
21 size T Count)? 
Z2. jF 
23 
24 TO device attrrxbute | 
25 struct attribute attr; 
26 Seize C (* show) (Struct. device “dev, Struce device a rlr ribus 了 att 
Z1 clar DHL 
28 Ssize Lb (S3 Ore) (9L UOC device dev. SurucL device attribute “acti, 
29 const Char “bul, Size © COUNT)? 
30 } 


事实 上 ，sysfs 中 的 日 录 来 源 于 bus type. device driver、device， 而 目录 中 的 文件 则 来 源 于 attribute。 
Linux 内 核 中 也 定义 了 一 些 快捷 方式 以 方便 attribute 的 创建 工作 。 


#define DRIVER ATTR( name, mode, show, store) \ 


struct driver attribute driver attr rr name = . ATTR( name, mode, ‘show, ssvore) 
#define DRIVER ATTR RW( name) \ 
struct driver attribute driver atti TT name -—...ATTIE RW mame) 
#define DRIVER ATTR RO( name) \ 
struct driver attribute driver attr ## name =  ATTR RO( name) 
define DRIVER ATTR WO( name) \ 
struct driver attribute driver attr tł name = . ATTR WO( name) 
#define DRIVER ATTR( name, mode, show, store) \ 
struct driver attribute driver attr tt name = ATIRO Dame, mode, show, Store) 
#define DRIVER ATTR RW( name) \ 
struct driver attribute driver attr ## name =  ATTR RW( name) 
#define DRIVER ATTR RO( name) \ 
struct driver attribute driver attr. tk name = _ -ATTR RO( name) 
#define DRIVER ATTR WO( name) \ 
struct driver attribute driver attr vr name = . ATTR WO( name) 
#define BUS ATTR( name, mode, show, store) N 
Struct bus attribute bus attr *r name — . ATTB( name, mode, show, store) 
#define BUS ATTR RW( name) ^ 
struct bus attribute bus attr ## name = . ATTR RW( name) 
#define BUS ATTR RO( name) ^ 
struct Dus attribute bus.qttr r name = ATTR.RBO( name) 


比如 ， 我 们 在 drivers/base/bus.c 文 件 中 可 以 找到 这 样 的 代码 : 


StatLre BUS ATIR(drIivers probe; ©. IWVUSR;: MULL Store drivers probe) 
Static. BUS ATIR(drivers duLoprobe, S IWUSE || S IRBUGO, 

show drivers aubtoprobe,. Store drivers. autoprobe); 
Static BUS. ATIR(uevent, $9 IWUSR, NUL, bus uevent store); 


而 在 /sys/bus/platform 等 里 面 束 可 以 找到 对 应 的 文件 : 


barry@barry-VirtualBox:/sys/bus/platforms ls 
devices “Grivers. “drivers: qutoprobe- “drivers: probe. "eventu 


RNS es 5.9 EA] AAAS n] Da JE sysfs, 3E Adumpth RRA. WR AKA fri A e 


代码 清单 $5.9” 通 历 sysf 


1 #!/bin/bash 
2 
3 # Populate block devices 
4 
5 for a: zm yssvs/block/*rdev 7sys/ block/*/*/dev 
6 do 
7 TX GL spo ae 
8 then 
9 MAJORSESYqsed ts. ^Y =< Sir) 
10 MINOR=S (sed 's/.*://*' < $1) 
11 DEVNAME-$ (echo $i | sed -e 's@/dev@@' -e 's@.*/@@') 
L2 echo /dev/SDEVNAME b $MAJOR SMINOR 
LS #mknod /dev/SDEVNAME b SMAJOR SMINOR 
14 EE 
Re done 
16 
Ly # Populate char devices 
18 
19 for X im SSys/bus/*/devices;*7dev /sys/class/ */*/dev 
20 do 
2 pu. JE ve ud 
22 then 
25 MAJOR=S (sec) Tora n/T x51) 
24 MINORSS (Sed Tsar" ug) 
25 DEVNAME-$ (echo $i | sed -e 's@/dev@@' -e 's@.*/@@') 
26 echo /dev/SDEVNAME c $MAJOR SMINOR 
27 #mknod /dev/SDEVNAME c $MAJOR SMINOR 
28 End 
29 done 


上 述 脚本 通 历 sys， 找 出 所 有 的 设备 ， 并 分 析出 来 设备 名 和 主 次 设备 亏 。 如 朱 我 们 把 27 行 前 的 '##" 去 


挥 ， 访 脚本 实际 上 还 可 以 为 整个 系统 中 的 设备 建 并 /dev/ 下 面 的 市 反 。 


5.4.3 udev 的 组 成 


udev 目 前 和 systemd 项 目 合并 在 一 起 了 ， 见 位 于 https://lwn.net/Articles/490413/ 的 文档 《Udev and systemd 
to merge》， 可 以 从 http:Wcgit.freedesktop.oreg/systemd/、https:Wgithub.comysystemd/systemd 等 位 置 下 载 最 新 的 
代 仔 。udev 在 用 户 衬 间 中 执行 ， 动 态 建立 /删除 设备 文件 ， 人 允许 每 个 人 都 不 用 关心 主 /次 设备 气 而 提供 
LSB 〈Linux 标 准 规范 ，Linux Standard Base) 名 称 ， 并 且 可 以 根据 需要 固定 名 称 。udev 的 工作 过 程 如 下 。 


1〉 当 内 核 检 测 到 系统 中 出 现 了 狐 设 备 后 ， 内 核 会 通过 netlink 僚 接 字 发 这 uevent。 


2) udev 获 取 内 核发 送 的 信息 ， 进 行规 则 的 匹配 。 匹 配 的 事物 包括 SUBSYSTEM、ACTION、 
atttribute、 内 核 提 供 的 名 称 〈 通 过 KERNEL=) 以 及 其 他 的 环境 变量 。 


假设 在 Linux 系 统 上 插入 一 个 Kingston 的 U 检 ,我们 可 以 通过 udev 的 工具 “devadm monitor--kernel-- 


property--udev3iti 3k 2) 的 uevent 包 含 的 信息 : 


UDEV [6328.797974] add 

/devices/por0000:0070000:500$20D.0/7u8Sbl/1-1/1-1:1.0/ho08t/]/t&rget/7:0$30/7:90:0:0/block/sdo (block) 

ACTION=add 

DEVLINKS-/dev/disk/by-id/usb-Kingston DataTraveler 2.0 5B8212000047-0:0 /dev/ 
disk/bye-path/pci-0000:00:0D.0-usb-0:121.0-5081-0£2050:0 

DEVNAME=/dev/sdc 

DEVPATH-/devices/po10000:00/0000:00:0bD,0/u085Dl/l-91/11:1.0/ho0St//target/:020/7:0:20107 
block/sdc 

DEVTYPE=disk 

ID BUS-usb 

ID TNSTANCESU:U0 

LD. MODEL-Dararraveler 2.0 

ID MODEL ENC=DataTraveler\x202.0 

ID MODEL ID=6545 

ID PART TABLE TYPE=dos 

LD PATH-por900UO0SDUTÜOD.D-usbD-o021:T.095095390£:05070 

ID PATH TAG-pci-0000 00 Ob 0-usb-0 1 1 0-scsi-0 00 0 

LD REVISIONSPMAE 

ID SERIAL-Kingston DataTraveler 2.0 5B8212000047-0:0 

ID SERIAL SHORT-5B8212000047 

ID TYPE-disk 

LD.USB.DRIVER-USDe-SPtOrPage 

ID USB INTERFACES-:080650: 

ID USB INTERFACE NUM-00 

ID VENDOR-Kingston 

ID VENDOR ENC-Kingston 

ID VENDOR ID=0930 

MAJOR=8 

MINOR=32 

SEQNUM=2 335 

SUBSYSTEM=block 


我 们 可 以 根据 这 些 信息 ， 创 建 一 个 规则 ， 以 便 每 次 捅 入 的 时 候 ， 为 议 盘 创建 一 个 /devwkingstonUD 的 符 
号 链 拨 ， 这 个 规则 可 以 与 成 代码 清 单 5.10 的 样子 。 


代 但 清单 $5.10 ”设备 命名 规则 范例 


# Kingston USB mass storage 
oGUBSOYSIBM--"DIocKk", ACTION=="ad0 7, AKERBNEL--"*Sd M; ENVILD TIPEJ-S"' QLSE",; 
ENViID. VENDOR;—--"KRingston", ENVIID.USB DRIVERj--"usb-storage", SYMLBINKT-"KkingstonUD" 


Jti kingston U 航 后 ，/dev/ 会 目 动 创建 一 个 符号 链接 : 


root@barry-VirtualBox:/dev# ls =l. kingstonUD 
lxworrwXIWX Lh WOQU- 2005-9 uum SO" 3593131 JeITIgStonlD: sc Sde 





5.4.4 udev ll c 4: 


udev 的 规则 文件 以 行为 单位 ， 以 ' 营 :开头 的 行 代表 注释 行 。 其 余 的 每 一 行 代 表 一 个 规则 。 每 个 规则 分 
成 一 个 或 多 个 匹配 部 分 和 赋值 部 分 。 匹 配 部 分 用 匹配 专用 的 关键 字 来 表示 ， 相 应 的 赋值 部 分 用 赋值 专用 的 
关键 字 来 表示 。 匹 配 关键 字 包 括 : ACTION (行为 ) KERNEL “〈 匹 配 内 核 设备 名 ) 、BUS [匹配 总 线 类 
型 ) . SUBSYSTEM 〈 匹 配子 系统 名 ) 、ATTR〔 属 性) 等 ， 赋 值 关 键 字 包 括 : NAME (创建 的 设备 文件 
4) . SYMLINK (符号 创建 链接 名 ) . OWNER (设置 设备 的 所 有 者 ) ~ GROUP (设置 设备 的 组 ) 、 
IMPORT “〈 调 用 外 部 程序 ) MODE (节点 访问 权限 ) S. 


例如 ， 如 下 规则 : 


SUBSYSTEM--"net", ACTION--"add", DRIVERS--" *", ATTR{address }=="08:00:27:35:be:ff", 
ATITRIdev 1dj5e"Ox0", ATTR{type}=="1", KERNEL=="eth*", NAME-"ethl" 


其 中 的 "匹配 ?部 分 


分 包括 SUBSYSTEM、ACTION、AITR、KERNEL 等 ， 而 “赋值 ”部 分 有 一 项 ， 是 
NAME。 这 个 规则 的 意思 


fe: 当 系 统 中 出 现 的 新 便 件 属于 net 子 系统 范 畴 ， 系 统 对 该 便 件 采取 的 动作 
是 “add” 这 个 便 件 ， 且 这 个 便 件 的 “address” 属 性 信息 等 于 “08: 00: 27: 35: be: ff’, "dev id” 属性 等 
于 “0x0”“type" 属 性 为 1 等 ， 此 时 ， 对 这 个 便 件 在 udev 层 次 施行 的 动作 是 创建 /deweth1l 。 


通过 一 个 简单 的 例子 可 以 看 出 udev 和 devfs 在 命名 方面 的 差异 。 如 果 系 统 中 有 两 个 USB 打 印 机 ， 一 个 可 
能 被 称 为 /dewusb/lp0， 另 外 一 个 便 是 /devwusb/ip1。 但 是 到 底 哪个 文件 对 应 哪个 打印 机 是 无 法 确定 的 ， 
Ip0、lp1 和 实际 的 设备 没有 一 一 对 应 的 关系 ， 了 映射 关系 会 因 设 备 发 现 的 顺序 、 打 印 机 本 屿 关闭 等 而 不 确 
定 。 因 此 ， 理 想 的 方式 是 两 个 打印 机 应 该 采用 基于 它们 的 序列 号 或 者 其 他 标识 信息 的 办 法 来 进行 确定 的 映 
射 ，devfs 无 法 做 到 这 一 点 ，udev 却 可 以 做 到 。 使 用 如 下 规则 : 


SUBSYSTEM="usb",ATTR{serial}="HXOLL0012202323480",NAME="]p epson", SYMLINK+="printers/ 
epson stylus" 


该 规则 中 的 匹配 项 目 有 有 SUBSYSTEM 和 ATTR， 赋 值 项 目 为 NAME 和 SYMLINK， 它 意味 看 当 一 台 USB 
打印 机 的 序列 与 为 “HXOLL0012202323480” 时 ， 创 建 /dev/lp_epson 文 件 ， 并 同时 创建 一 个 符号 链 
接 /dev/printers/epson styles。 序 列 号 为 ‘HXOLL0012202323480” 的 USB 打 印 机 不 管 何 时 被 插入 ， 对 应 的 设 
备 名 都 是 /dewlp epson， 而 devfs 显 然 无 法 实现 设备 的 这 种 国定 命名 。 


udev 规 则 的 写法 非常 灵活 ， 在 匹配 部 分 ， 可 以 通过 “*”、“? ”_、[a~cl]、[1~9] 等 shell 通 配 符 来 灵活 匹配 
多 个 项 目 。*# 类 似 于 shell 中 的 * 通 配 符 ， 代 和 丛 任 意 长 度 的 任意 字符 串 ，? 代 礁 一 个 字符 。 此 外 ，%k 束 是 


KERNEL，%n 则 是 设备 的 KERNEL 序 号 (如 存储 设备 的 分 区 号 ) 。 


可 以 借助 udev 中 的 udevadm info 工 上 其 查找 规则 文件 能 利用 的 内 核 信 息 和 sysfs 属 性 信息 ， 如 运 


行 “udevadm info-a-p/sys/devices/platform/serial8250/tty/ttySO" mM T4 £3 F]: 


udevadm info -a =p /sys/devices/platform/serial8250/tty/ttySO0 
Udevadm info starts with the device specified by the devpath and then 
walks up the chain of parent devices. It prints for every device 
found, all possible attributes in the udev rules key format. 
A rule to match, can be composed by the attributes of the device 
and the attributes from one single parent device. 
looking at device '/devices/platform/serial8250/tty/ttyS0': 
KERNEL--"ttyS0" 
SUBSYSTEM=="tty" 
DRIVER=="" 
ATTR{irg}=="4" 
ATTR{line}=="0" 
AITTRIDOÉILI—--"OxSFEFO" 
ATTR{type}=="0" 
ATTR{flags }=="0x10000040" 
ATTRITOmem .Base QO 
本 
人 
ATTR{uartclk}=="1843200" 
ATIRI MLC ITO “sane yaa 
ATIBICLlOSe “delay e-' 20* 
ALIR OTOSI NG Wurtj-- 29007 
ATIRLO typejcecto" 
looking at parent device '/devices/platform/serial8250': 
KERNELS=="Serial8250" 
SUBSYSTEMS=="platform" 
DRIVERS=="Serial8250" 
looking at parent device '/2devrces/pletformt: 
KERNELS=="platform" 
SUBSYSTEMS=="" 
DRIVERS=="" 


QR /dev/ FMA Ho Aa Bet, (EAE RAE ET NLTJ/sys-H. MH Re, n] EACH] udevadm info-a- 
p$ Cudevadm info-q path-n/dev/« i R Z>) ”命令 反问 分 析 ， 比 如 : 


udevadm info =á =p S$(udevadm info -q path -n /dev/sdb) 
Udevadm info starts with the device specified by the devpath and then 
walks up the chain of parent devices. It prints for every device 
found, all possible attributes in the udev rules key format. 
A rule to match, can be composed by the attributes of the device 
and the attributes from one single parent device. 
looking at device '/devaices/poro000:00/0000:200$0.0/23ta4/hoSt3/target3:0:07/3:0:20:0/DbloCck7/sdb'«4 
KERNEL=="sdb" 
SUBSYSTEM=="block" 


DRIVER=="" 

ATTR{ro}=="0" 

ATTR{size}=="7/716922886" 

ATTR{stat }==" 584 1698 4669 7564 O 9 O 
O 9 7564 1964 


ATTR{range}=="16" 

ATIR ITeC rd alagnmen.’ p=="0" 

ATTR{events}=="" 

AIR eke Eange]-' 29907 

AIIRISVents poll MSGS SS T= 

ATTRi[iGILIgnment orfrset-"0" 

ATITRLITDILght]ee" O Dm 

ATTR(removable])--2"Q" 

ATTR{capability}=="50" 

ATIR EVENS asyncy;=="" 

looking at parent device '/devices/pci0000:00/0000:00:0d.0/ata4/host3/ 

bargersos0 7073702030": 

KERNELS=="3:0:0:0" 

SUBSYSTEMS=="scsi" 

DRIVERS=="sd" 

ATTRS{rev}=="1.0 " 

ATTRS {type }=="0" 

ATIBSTOCSI level "Ue" 

ATTRS {model }=="VBOX HARDDISK = 

ATTRS {state }=="running" 

ALTRO CUS: type == simple” 

ATTRO[rIOdone- cht p=="0x299" 

ATIIRBSIHIOrequest Cnt j=="0x79a" 

PTI Ro Queues Samp. up per roo }==" 120000" 

ATTRS {timeout } =="30" 

ATIRO (eve. medra changej--"0" 

BIDBOTqIOSEE ONESTO" 

ALTR Queue. depth) 30" 


ATTRS {vendor }=="ATA i 
ATIR (devICe DIGOkedj==sTo™ 
ATTRS{iocounterbits }=="32" 
looking at parent device '/devices/pci0000:00/0000:00:0d.0/ata4/host3/ 
target3:0:0': 
KERNELS=="target3:0:0" 
SUBSYSTEMS--"scsi" 
DRILIVERSSe"T" 
looking at parent device '/devices/pci0000:00/0000:00:0d.0/ata4/host3': 
KERNELS=="host3" 
SUBSYSTEMS=="scsi" 
DRIVERS 
looking at parent device '/devices/pci0000:00/0000:00:0d.0/ata4': 
KERNELS=="ata4" 
SUBS Yo LEMS=—"" 
DRIVERS=="" 
LOOKING ab parent device tldgéwvices)pcr0000900/0000*00509.40*2 
KERNELS=="0000:00:0d.0" 
SUBSYSTEMS=="pci" 
DRIVERS--"ahci" 
ATTRS[(irqj)--"2]" 
ATI Ret subsystem vendor)--"O0x0000" 
ATTRot broken, parity statusj--"0" 
ATTRS {class }=="0x010601" 
ATIRS4 CONSLSvent dma mask. brts}=="04" 
ATTRS{dma_ mask bits}=="64" 
ALT ROT LOCal Cous;= >" Bi" 
ATTRS {device }=="0x2829" 
ATTRS {enable }=="1" 
ATIR MoI Dus pas 
ATR. JOCA. CHULI CSES 
ATTRS {vendor }=="0x8086" 
ATIRG tsubsyscvem. device|--"0x0000* 
ATIR Gold- allowed Ssu] 
hooking at parent device. */Gdéevices/ pci 0000300": 
KERNELS=="pci0000:00" 
SUBS Ys TEMS=="" 
DREVERS=="" 


TEN AH, Ea UL Hudevif] #2 Ahk Amdev, mdevf& EV, busybox F. fESRYEbusyboxH AY [ix , 
选中 mdev 相 关 项 目 即 可 。 


Android 也 没有 米 用 udev， 它 采用 的 是 vold。vold 的 机 制 和 udev 是 一 样 的 ， 理 解 udev, WIERE J 
vold。Android 的 源 代 码 NetlinkManagercpp 同 样 是 监听 基于 netlink 的 三 接 字 ， 并 解析 收 到 的 消息 。 


Linux 用 户 衬 间 的 文件 编程 有 两 种 方法 ， 即 通过 Linux APDRDBI 闲 数 访问 文件 。 用 户 空 间 看 不 到 
设备 驱动 ， 能 看 到 的 只 有 与 设备 对 应 的 文件 ， 因 此 文件 编程 也 就 是 用 户 空 间 的 设备 编程 。 


Linux 按 照 功能 对 文件 系统 的 目录 结构 进行 了 展 好 的 规划 。/dev 是 设备 文件 的 存放 目录 ，devfS 和 udev 分 
Al Linux 2.4 和 Linux 2.6 以 后 的 内 核 生 成 设备 文件 节点 的 方法 ， 前 者 运行 于 内 核 空 间 ， 后 者 运行 于 用 户 空 
EIR 


Linux 2.6 Ja If] P3 2038813. RI AAEN S RRR, WARE E sysfs CF R RP HI H RACE 
存在 一 种 对 应 天 系 。 设 备 和 张 动 分 离 ， 并 通过 总 线 进 行 匹配 。 


udev 可 以 利用 内 核 通 过 netlink 发 出 的 uevent 信 息 动 态 创建 设备 文件 节操 。 


BOR FFT BC ae DKA) 
本 章 导读 


在 整个 Linux 设 备 驱 动 的 学 习 中 ， 字 符 设备 驱动 较为 基础 。 本 章 将 讲解 Linux 字 符 设备 驱动 程序 的 结 
构 ， 并 解释 其 主要 组 成 部 分 的 编程 方法 。 


6.1 节 讲解 了 Linux 字 符 设备 驱动 的 关键 数据 结构 cdev 及 file _ operations 结 构 体 的 操作 方法 ， 并 分 析 了 
Linux 字 从 设备 的 整体 结构 ， 给 出 了 简单 的 设计 模板 。 


6.2 节 描述 了 本 章 及 后 续 各 音节 所 基于 的 globalmem 虚 拟 字符 设备 ， 第 6~9 章 都 将 基于 该 虚拟 设备 实例 
进行 字符 设备 驱动 及 并 发 控制 等 知识 的 讲解 。 


6.3 市 依据 6.1 市 的 知识 讲解 globalmem 的 设备 驱动 编写 方法 ， 对 读 写 函数 、seek() KIOJ H A žr 
等 进行 了 重点 分 析 。 访 节 的 最 后 也 讲解 了 Linux 驱 动 编程 “私有 数据 ”的 用 法 。 


6.4 节 给 出 了 6.3 节 的 globalmem 设 备 驱 动 在 用 户 空间 的 验证 。 


6.1 Linux E ix Ko Zi d 


6.1.1 cdev 结 构 体 


在 Linux 内 核 中 ， 使 用 cdev 结 构 体 手 述 一 个 字符 设备 ，cdev 绍 构 体 的 定义 如 代码 消 蛙 6.1。 


代码 清单 6.1 cdev 结 构 体 


lIstruct odev 1 


Unsigned int Counc; 


Ye 
Ne 


2 struct kobject kobj; [^ 
3 struct module *owner; "Ru 
4. Struct file operations “Ops; Jes 
oO struct dioi head Lise; 

6 dev t dev; fo 3 
7 

8 


Wikü)kobject*w$€ */ 
所 属 模 块 * / 
文件 操作 结构 体 */ 


cdev 结 构 体 的 dev_t 成 员 定 义 了 设备 写 ， 为 32 位 ， 其 中 12 位 为 主 设备 写 ，20 位 为 次 设备 写 。 使 用 下 列 


宏 可 以 从 dev t 获 得 主 设备 志和 次 设备 气 : 


MAJOR(dev t dev) 
MINOR(dev t dev) 


IEH P ZZ WU n] PAGES Ec e^ RC m kidev t: 


MKDEV (int major, int minor) 


cdev 结 构 体 的 另 一 个 重要 成 员 file operations 定 义 了 字符 设备 驱动 提供 给 虚拟 文件 系统 的 接口 函数 。 


Linux 内 核 提 供 了 一 组 水 数 以 用 于 操作 cdev 结 构 体 : 


vorid COSY NE 


Struct cdev *cdev e2lloe(void);7 
void cdev Dub (Struct Qdev *p)7 


int "COSY addilstrucc. cdey * dev t, unsigned); 


void dev delen Caer vir 


cdev init © PA ZH] TW] ceden, FÆ cedevýlfile operations 之 间 的 连接 ， 其 源 代 码 如 代码 


清单 6.2 所 示 。 


代码 清单 6.2 cdev init O 函数 


lvold ocdev LDnibL(SLruoct cdév *cdev, struct iile Operations *rLops) 


Zu 

3 memset (cdev, 0, sizeof *cdev); 

4 INIT LIST HEAD (&cdev->list); 

5 kobject init(&cdev->kobj, &ktype cdev default); 

6 cdev-»ops = fops; /* 将 传 入 的 文件 操作 结构 体 指针 赋值 给 cdev 的 ops*/ 


Lj 


cdev alloc () 水 数 用 于 动态 申请 一 个 cdev 内 存 ， 其 源 代 码 如 代码 清早 6.3 所 示 。 
代码 清单 6.3 cdev alloc〈) 函数 


Struct, cdev-*odev alloc(Qvord) 
Za 


3 Struce cdev ~p = szalloc(silzeort(Struec to GEP KERNEL); 
4 Lf Xp 

5 INIT LIST HEAD(&p-»list); 

6 kobyect nrctepekobI, &ktype cdev dynamic); 

7 } 

8 return p; 

of 


cdev add © PAZ A#llcdev_del O 函数 分 别 问 系统 添加 和 删除 一 个 cdev， 完 成 字符 设备 的 注册 和 注 
销 。 对 cdev add O 的 调用 通 第 用 生 在 字符 设备 张 动 梗 块 加 载 图 数 中 ， 而 对 cdev_ del O 函数 的 调用 则 通 
T Bt ETE TIT AC Pe IK EY) E ERI BL o 


6.1.2 ”分配 和 释放 设备 号 


在 调用 cdev add O 郴 数 回 系 统 注 册 字 符 设 备 之 前 ， 应 首先 调用 register chrdev region O 或 
alloc chrdev region O MAH Z& ic Hi se Ss, RPS RA A: 
Int. Peorscer chrdev regron(dev —- from, unsigned count. Conse char *name); 


int alloc chrdev regron(dev t *dev, unsigned baseminor, unsigned count, 
const char *name); 


register chrdev region O MACHT C ATE Ag vc HP) KA m JT US. Tfjalloc chrdev region O HF 
A ARAM. MARRS S BA HB BIOL. RIAA RI ZS, BGR NRE SBA TS 
参数 dev 中 。alloc chrdev region (© 相 比 于 register chrdev region O 的 优点 在 于 它 会 自动 避 开 设备 号 重复 
的 冲突 。 


相应 地 ， 在 调用 cdev_ del O 函数 从 系统 注销 字符 设备 之 后 ，unregister_chrdev_ region〈) 应 该 航 调用 
以 释放 原先 申请 的 设备 号 ， 这 个 函数 的 原型 为 : 


void unregister chrdev region(dev t from, unsigned count); 


6.1.3 file operations 结 构 体 


file_operations 结 构 体 中 的 成 员 函 数 是 字符 设备 驱动 程序 设计 的 主体 内 容 ， 这 些 函 数 实际 会 在 应 用 程序 
进行 Linux 的 open ©) ~ write © 、read ©) 、close O 等 系统 调用 时 最 终 被 内 核 调用 。file operations 结 构 
体 目 前 已 经 比较 庞大 ， 它 的 定义 如 代码 清单 6.4 所 示 。 


代码 清单 6.4 file operations 结 构 体 


lSLtruct file operations | 


2 struct module “owner; 

sc dott © {FLL Geek) (SLEUCL tile ~; loll Ty 2c) se 

4 69120 o (read) (Struce file 5, char Ser. ^. size tc, 101r T ~j; 

5. Size L ("N LLS) (struct file ^, Conse Char . user *, size ty, LORI C 9); 

6 88126 °C (alo read) (Struct, Ki00D *, Const SCrucc zovec ~; unsigned Long; Locf t); 
+ #6176 L (alo Vr le) (Seo. RIOCD '*..00n8t Struct 26vec ^, Unsigned long, Lor t); 
D» ant (Iter te) (Sr file 5. Seruce Cit DOULOXt ^93 

2- Aansrgned mt (*poll) TSLPIUDL tile ^, serucr poll. table Struct ^y 

LU. Jong (unlocked 10C0bl) (Struct. Tile $5, ungexgned anc, SDnelgheo Long); 

ll long ("compal toci; (struct fide *, unsigned int, Unsigned Long); 

l2 ant Cup) (struct tule "v Struct vnm area Struct. ~j} 

13 Nt (*open) (struct. inode *, Struct tile *); 

14. ane (^Llush) (struct fale *, IL owner C 1d); 

15 ant (*release) (struct anode *, struct file *); 

Lo ant («LSVIO) PSUCUOD fale ~; Loli ty torr ty, Int OSBCcSSyIOY 

1^ aie (falo L5yuc) (Strae ETXOGD ^, ant datasyic); 

Lo int (*Tasync) (int; Struct file *, int); 

iD ant 199b (seruct tide "5 at, Struct rile lock 59r 
2) Size L i'*senüupace) (arruct file ~; Struc. page 7 Ib, Size Ty LOIL © *, anc); 


Zl unsigned Long (“get unmapped area) (Struct rile ^, unsigned long, unsigned long; 
unsigned long, unsigned long); 
24. ant (*check flags) (int); 
Zo dame ("LL00R) (Strucb tile 5, tie, Seruc. tile tock "JV 
24 85126 L (*Splice Write) (Struct. pipe anode Iio ^. Struct tile: ^, loll © ~; S126. L1, Unsigned LNL)? 
29 SEIZE L ("SpLIOe read) (otruce tale ^. LOLL E ". Struce pape N00s 158.0 ^. Give Lb, Unsigned anc); 
20 ane \*serlease) (Struct file ~, long, Strucut file Jock **); 
24 döng A tallocace) (struct: Tide *í11L6, ane modey JOLT © O0OLLSeLb5, 


28 toii © Len 
Zo XXE (Show IOInblo)TStruct Seq tile: “mm S6ruct Tile *D5 5 
30r 


下 面 我 们 对 file operations 结 构 体 中 的 主要 成 员 进 行 分 析 。 


llseek O 国 数 用 来 修改 一 个 文件 的 当前 读 与 位 置 ， 并 将 新 位 置 返 回 ， 在 出 错时 ， 这 个 函数 返回 一 -1 
SUE 


read O PRU SA e PIA, BODY ERG BRI a, CN el T f Bs E SH 
PEMA HP WY ssize tread Cint fd, void*buf, size t count) 和 和 size t fread (void*ptr, size t size; 


size tnmemb, FILE*stream) 对 心 。 


write O PRAIA UE AIKEN, TAIN VA PRI [Al A ETB. WR EE PRIOR SEM, SA T 
write ©) 系统 调用 时 ， 将 得 到 -EINVAL 返 回 值 。 它 与 用 户 衬 间 应 用 程序 中 的 ssize t write Gnt fd, const 


void*buf, size t count) 和 Size t fwrite (const void*ptr, size t size, size t nmemb, FILE*stream) 对 心 。 


read () 和 write © 如 果 返 回 0， 则 上 蜡 示 end-offile (EOF) 。 


unlocked ioctL《〈) 提供 设备 相关 控制 命令 的 实现 《〈 既 不 是 该 操作 ， 也 不 是 写 操 作 ) ， 当 调用 成 功 时 ， 
返回 给 调用 程序 一 个 非 负 值 。 它 与 用 户 空 间 应 用 程序 调用 的 int fentl Cint fd, int cmd, .../*arg*/) Mint 
ioctl Cintd, int request, ...) 对 应 。 


mmap O 函数 将 设备 内 存 映 射 到 进程 的 虚拟 地 址 空间 中 ， 如 果 设 备 驱 动 未 实现 此 函数 ， 用 户 进 行 
mmap ©) 系统 调用 时 将 获得 -ENODEV 返 回 值 。 这 个 函数 对 于 帧 缓冲 等 设备 特别 有 意义 ， 帧 缓冲 被 映射 到 
用 户 空 间 后 ， 应 用 程序 可 以 直接 访问 它 而 无 须 在 内 核 和 应 用 间 进 行内 存 复 制 。 它 与 用 户 空 间 应 用 程序 中 的 
void*mmap (void*addr, size tlength, int prot, int flags, int fd, off t offset) 函数 对 应 。 


AH P ERRARE Linux APIA open O 打开 设备 文件 时 ， 设 备 驱 动 的 open〈) 函数 最 终 航 调用 。 驱 动 
程序 可 以 不 实现 这 个 函数 ， 在 这 种 情况 下 ， 设 备 的 打开 操作 永远 成 功 。 与 open O 函数 对 应 的 是 


release () PRA 


poll O PEZ — RN H]-T- 8l fal ce xe FS n] E AEBH SER BUT. SSR TEAR AA, Him 
select () 和 poll O AZ Val HET 5] HERE AY BASE 


aio read () 和 aio_ write CO PRA AIT SCPE TIA FF OT DV CR ET PP SERVE WC SIX 
PAS p BU, FP ele) ey B E Ves EIA AEST SYS io setup. SYS io submit. SYS io getevents. 
SYS io_destroy 等 系统 调用 进行 谈 与 。 


6.1.4 Linux f uc Up JI H E 

在 Linux 中 ， 字 和 从 设备 驱动 由 如 下 几 个 部 分 组 成 。 
1. 字 和 从 设备 驱 动 模块 加 载 与 锰 载 函数 

在 字符 设备 驱动 模块 加 载 水 数 中 应 该 实现 设备 号 的 申请 和 cdev 的 注册 ， 而 在 凶 载 冰 数 中 应 实现 设备 号 
的 释放 和 cdev 的 注销 。 

Linux 内 核 的 编码 习惯 是 为 设备 定义 一 个 设备 相关 的 结构 体 ， 该 结构 体 包 含 设备 所 涉及 的 cdev、 私 有 
数据 及 锁 等 信息 。 第 见 的 设备 结构 体 、 模 块 加 载 和 赦 载 函数 形式 如 代码 清单 6.$ 所 示 。 


代码 清单 6.3 ”他 从 设备 驱动 模块 加 载 与 凶 载 函数 模板 


l/* 设备 结构 体 

ZSLEUOCL xxx dev | 

3 Struct cdeév cdev; 
4 

29] XXX dev; 

6/* 设备 驱动 模块 加 载 函 数 


ee 

8 { 

D^ x53 
10 cdev init(&xxx dev.cdev, &xxx fops); /* 初始 化 cdev */ 


11 xxx dev.cdev.owner = THIS MODULE; 
12 /* 获取 字符 设备 号 * / 
l9 XE (Xxx major) 4 


14 register chrdev region(xxx dev no, 1, DEV NAME); 

L5 } else { 

16 alloc chrdev region(&xxx dev no, 0, 1, DEV NAME); 

17 } 

18 

19 ret = cdev add(&xxx dev.cdev, xxx dev no, 1); /* 注册 设备 */ 
75, m 

21] 

22/* 设备 驱动 模块 卸载 函数 * / 

Z98LAatlO vöid exit XXX exict(voro) 

24 { 

25 | unregister chrdev region(xxx dev no, 1); /* 释放 占用 的 设备 号 * / 
26 cdev del(&xxx dev.cdev); /* 注销 设备 */ 
21 

28} 


2. FFF KSI file operations 44 T^] F AY EK va ER AY 


file operations 结 构 体 中 的 成 员 图 数 是 字符 设备 驱动 与 内 核 虚 拟 文 件 系 统 的 接口 ， 是 用 户 空 间 对 Linux 
进行 系统 调用 最 终 的 洲 实 者 。 大 多 数字 符 设 备 张 动 会 实现 read O . write © 和 ioctl O mat, FILA 
从 设备 驱动 的 这 3 个 函数 的 形式 如 代码 清单 6.6 所 示 。 


代码 清单 6.6 ”字符 设备 驱动 恋 、 写 、1O 控 制 函 数 模 板 


/* 读 设备 */ 

SEO 
Loft Tt*f pos) 

| 


COpy CO uUuSeriDUIF. Aaa eJ 


CO =] Oy Ol m CO NH P 


9 /* 写 设 备 */ 
LO: SSize © XXX WIILeETSLPUCL file “filp, conse Char User “bur, S126 © Counc, 
11 LOI © «rf Poe) 
12 4 


14 COPY From User mr DULy sas)? 
16 } 


17 /* 1oct1 函 数 */ 
1G: bong Xxx 1OCLI(etruce £116 *LLlp, unsigned 1nG cmd, 


19 unsigned long arg) 
20 1 

21 -— 

22 Switch (cmd) { 

23 Case XXX CMD 1.2 

24 es 

2 break; 

26 case XXX CMD2: 

21 as 

28 break; 

29 default: 

30 /* 不 能 支持 的 命令 */ 
Gai return = ENOTTY; 
32 } 

33 return 0; 

34 } 


We OER, fip LAAIE buf HP ZA ASO, ABE AAT [IR] AS A E 
接 该 写 ，count 是 要 读 的 字 节 数 ，f poste he EHX T ERF AK o 


设备 驱动 的 瑟 函 数 中 ，filp 是 文件 结构 体 指 夺 ，buf 十 用 尸 空间 内 存 的 地 址 ， 该 地址 在 内 核 空间 不 宜 下 
接 读 写 ，count 是 要 写 的 字 节 数 ，f pos 是 写 的 位 置 相 对 于 文件 开头 的 偏 移 。 


由 于 用 户 空 间 不 能 和 耳 接 访问 内 核 空 间 的 内 存 ， 因 此 借助 了 疯 数 copy from user ©) SER HI T By 
区 到 内 核 空间 的 复制 ， 以 及 copy to user O 完成 内 核 空间 到 用 尸 空间 缓冲 区 的 复制 ， 见 代码 第 6 行 和 第 14 


fT. 
完成 内 核 空间 和 用 户 空 间 内 存 复 制 的 copy from user () 和 copy to user ©) 的 原型 分 别 为 : 
unsigned: long copy from. user(vord “to const void user ^irom, unsigned long count); 
Unsigned Long Copy Lo userivold . user CO; Const vold.^rtrfom, unsigned dong count); 


Es eS OR IBI BEC HN ET, DUC. Uu Red AZ I, HIME AO. MNRAS AM, M 


如 果 要 复制 的 内 存 是 简单 类型 ， 如 char、int、long 等 ， 则 可 以 使 用 傈 单 的 put user ©) 和 
get user () ， 如 : 





int val; /* 内 核 空 间 整 型 变量 
get user(val, (int *) arg); /* 用 户 -内 核 ，azg 是 用 户 空间 的 地 址 */ 
put user{val; (AC ~=) argi; /* AK-HP, arg Mezh */ 


TERIS PERCHÉ. userzé SA, RASS feria lA le), Sebo E SB ELS I3 JANI BEREIT] 
功能 。 这 个 安定 义 为 : 


#ifdef CHECKER _ 


t define user _ Attribute ((noderef, address space(l))) 
#else 

# define user 

#endif 


内 核 空间 虽然 可 以 访问 用 户 空间 的 缓冲 区 ， 但 是 在 访问 之 前 ， 一 般 需 要 先 检查 其 合法 性 ， 通 过 
access ok (type，addr，size》 进 行 判 断 ， 以 确定 传 入 的 缓冲 区 的 确 属于 用 户 空间 ， 例 如 : 


Static 65176 © reod Porio ruci tule “file; Char —user “bur, 
Size C count, Port € *ppob) 
{ 
unsigned long 1 = *ppos; 
char user *tmp = buf; 
Lr (lactens OR(O/ERIEY WRITE, Dur; Counc) } 
return -EFAULT; 
while (count-- > 0 && 1 < 65536) | 
LE 4(- puc useri(rinoti);. tmp) € 9) 
return -EFAULT; 
itt; 
CMO 7 
} 
"Dpos = 1; 
return tmp-buf; 


上 述 代码 中 引用 的 _put user O 与 前 文 讲 解 的 put user O 的 区 别 在 于 前 者 不 进行 类 似 access ok © 
的 检查 ， 而 后 者 会 进行 这 一 检查 。 在 本 例 中 ， 不 使 用 put_user《〈) 而 使 用 _put user O HYJAL ££ 
. put user O 调用 之 前 ， 已 经 手动 检 枉 了 了 用户 空 间 缓冲 区 (buf 指 问 的 大 小 为 count 的 内 存 〉 的 合法 性 。 
get user () 和 ”get user © 的 区 别 也 相似 。 


特别 要 提醒 读者 注意 的 是 : 在 内 核 空 间 与 用 户 空间 的 界面 处 ， 内 核 检 查 用 户 空间 缓冲 区 的 合法 性 显得 
尤其 必要 ，Linux 内 核 的 许多 安全 漏洞 都 是 因为 遗忘 了 这 一 检查 造成 的 ， 非 法 侵入 者 可 以 伪造 一 片 内 核 空 
间 的 缓冲 区 地 址 传 入 系统 调用 的 接口 ， 让 内 核对 这 个 evil 指 针 指 向 的 内 核 空 间 填充 数据 。 有 兴趣 的 读者 可 
以 从 http://www.cvedetails.com/ 网 站 查阅 Linux CVE (Common Vulnerabilities and Exposures) 列表 。 


其 实 copy from user () ~ copy to user OO 内 部 也 进行 了 这 样 的 检查 : 


Static Inline unsigned long must.oHeck.oopy Irom user(tvord "Lo. const youd USer 
*from, unsigned long n) 
{ 
Il (access Ok (VERIFY -READ, from, nij 
n —- copy from user(to, from, nm); 
else /* security hole = plug it */ 
memset(to, O, n); 
DLeTurn n? 
j 
Static inline unsigned long X must check copy Lo user(void . user “to, const void 
*from, unsigned long n) 
{ 
Il (access Ok (VERIEY WRITE, toy n) 
i= -gopy to üseri(to, from, n); 
return ny 


IO 控制 函数 的 cmd 参 数 为 事先 定义 的 IO 控制 命令 ， 而 arg 为 对 应 于 该 命令 的 参数 。 例 如 对 于 串 行 设 
备 ， 如 果 SET BAUDRATE 是 一 道 设 置 流 特 率 的 命令 ， 那 后 面 的 arg 怠 应 该 是 波 特 率 值 。 


在 字符 设备 驱动 中 ， 需 要 定义 一 个 fle operations 的 实例 ， 并 将 具体 设备 驱动 的 函数 赋值 给 
file operations 的 成 员 ， 如 代码 清单 6.7 所 示 。 


代 但 请 单 6.7 字符 设备 驱动 文件 操作 结构 体 柑 板 


lstruüct file operaLlons Xxx tops = { 
2 .owner — THIS MODULE, 

3 Toad = Xx read, 

4 .write = xxx write, 

S JUnlbocked JX0€6Ltl-9 Xxx LOOLL 

6 

7); 


Exxx fops 在 代码 清单 6.$ 第 10 行 的 cdev_ init C&xxx dev.cdev, &xxx fops) 的 语句 中 建立 与 cdev 的 连 
接 。 
图 6.1 所 示 为 字符 设备 驱动 的 结构 、 字 符 设 备 驱 动 与 字符 说 备 以 及 字符 设备 驱动 与 用 户 空 间 访问 该 设 


备 的 程序 乙 间 的 关系 。 


MEET "e E 用 户 空间 
| x LANs pia | 
| /Ng $) FREE ANAK PHL - 
| | 
| My pg. | Linux 系统 调用 
| CFR m BEL UAL BR HL | 
| 
| | 
I 
| 
| | 
| | 
| | 
l | 
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图 6.1 字符 设备 驱动 的 结构 


6.2 globalmem iz 10 Ve $& SEA] TIS 3A 


从 本 章 开 始 ， 后 续 的 数 章 都 将 基于 虚拟 的 globalmem 设 备 进行 字符 设备 驱动 的 讲解 。globalmem 意 味 
着 “全 局 内 存 ”， 在 globalmem 字 符 设 备 驱 动 中 会 分 配 一 片 大 小 为 GLOBALMEM SIZE (4KB) 的 内 存 空 
间 ， 并 在 驱动 中 提供 针对 该 片 内 存 的 读 写 、 控 制 和 定位 函数 ， 以 供用 户 空间 的 进程 能 通过 Linux 系 统 调用 
获取 或 设置 这 片 内 存 的 内 容 。 


实际 上 ， 这 个 虚拟 的 globalmem 设 备 几乎 没有 任何 实用 价值 ， 仅 仅 是 一 种 为 了 讲解 问题 的 方便 而 赁 空 
制造 的 设备 。 


本 章 将 给 出 globalmem 设 备 张 动 的 私 形 ， 而 后 续 章 节 会 在 这 个 区 形 的 基础 上 添加 并 及 与 同步 控制 等 复 


功能 。 


we 


6.3 globalmem 议 备 豫 动 


6.3.1 头 文件 、 宏 及 设备 结构 体 
在 globalmem 字 人 符 设 备 张 动 中 ， 应 包 售 它 要 使 用 的 头 文 件 ， 并 定义 globalmem 设 备 结构 体 及 相关 安 。 
代码 清单 6.8 elobalmemix ff 25 T4] P RU Z 


l#include <linux/module.h> 

2#include <linux/fs.h> 

3#include <linux/init.h> 

4#include <linux/cdev.h> 

5#include <linux/slab.h> 

6#include <linux/uaccess.h> 

7 

S#define GLOBALMEM SIZE Ox1000 

9#define MEM CLEAR 0x1 

10#define GLOBALMEM MAJOR 230 

11 

l2static int globalmem major = GLOBALMEM MAJOR; 
13module param(globalmem major, int, S IRUGO); 
14 

LoStruct globalmem dev 1 

16 struct cdev cdev; 

17 unsigned char mem[GLOBALMEM SIZE]; 

18}; 

19 

ZUscructe. globalmem dev *globalmem devp; 


从 第 15~18 行 代码 可 以 看 出 ， 定 义 的 globalmem dev 设 备 结构 体 包 含 了 对 应 于 globalmem 字 符 设 备 的 
cdev、 使 用 的 内 存 mem[GLOBALMEM SIZE]。 当 然 ， 程 序 中 并 不 一 定 要 把 mem[GLOBALMEM SIZE] 和 
cdev 包 售 在 一 个 设备 结构 体 中 ， 但 这 样 定义 的 好 处 在 于 ， 它 信用 了 面 回 对 象 程序 设计 中 “ 封 痛 ? 的 思想 ， 体 


现 了 一 种 民 好 的 编程 习惯 。 


6.3.2 ”加 载 与 番 载 设备 驱动 


globalmem 设 备 驱 动 的 模块 加 载 和 他 载 图 数 遵循 代码 清单 6.$ 的 类 似 模板 ， 其 实现 的 工作 与 代码 清单 6.5 
完全 一 致 ， 如 代码 清单 6.9 所 示 。 


代 但 清单 6.9  globalmemi 44 SRA PEER HY Wk SN ER ERI 


lstatic void globalmem setup cdev(struct globalmem dev *dev, int index) 
Z1 
3. int err, devno = MKDEV(globalmem major, index); 


o. odev xnit(sdeve^cdev, eglobalmem 110p); 
6 dev-»cdev.owner = THIS MODULE; 
7 
8 


err = cdev add(&dev-»cdev, devno, 1); 
if (err) 
9 printk(KERN NOTICE "Error $d adding globalmem$d", err, index); 
10} 
11 
l2static int | init globalmem init(void) 
low 


14 int ret; 
15 dev t devno = MKDEV(globalmem major, 0); 


16 

17 if (globalmem major) 

18 ret = register ochrdev region (devno, 1, "globslmem".. 
19 else { 

20 rer = alloc chrgdev region(édevno, Uy l, "globalmem"); 
Z1 globalmem major = MAJOR (devno); 

22- } 

23 if (ret < 0) 

24 return ret; 

Ye 


26 globalmem devp = kzalloc(sizeof(struct globalmem dev), GFP KERNEL); 
27 if (!globalmem devp) { 


28 ret = -ENOMEM; 

Z9 goto Tal malloc; 
30 } 

31 


32 globalmem setup cdev(globalmem devp, 0); 
33 return 0; 


99 Tail malloc: 

20 unregister chrdev regi0n(devno, L)? 
ST. return rec; 

38] 

39module init(globalmem init); 


第 1~10 行 的 globalmem setup cdev ©) rRZSE p cdev I] JAMI, 17-221T5& EX f. ix SH HH V 
第 26 行 调用 kzalloc O 申请 了 一 份 globalmem dev 结 构 体 的 内 存 并 清 0。 在 cdev init O 函数 中 ， 与 
globalmem 的 cdev 关 联 的 fle operations 结 构 体 如 代码 清单 6.10 所 示 。 


代 人 担 清单 6.10 — globalmem v 4 JJ] E] SC FER TE £i 14] V 


lStatrice const Struct. tile. 0peratrlons globaliem Pops = 4 
2 .owner = THIS MODULE, 

3 ,l1lsSeock = globalmem Jiscek, 

4 bead = Globalmem read; 

5 awrite = globalnem wrote, 

6 Unlocked ToCLL = glopalmem cocti 

7 „Open = globalmem open, 

8 „reloads = qropDsimen release, 

9}; 


6.3.3” 斌 写 函 数 


globalmem 设 备 驱 动 的 读 写 疯 数 主要 是 让 设备 结构 体 的 mem[] 数 组 与 用 尸 空 间 交 互 数 据 ， 并 随 看 访问 的 
字 节 数 变 更 更 新 文件 谈 与 侦 移 位 置 。 谈 和 与 图 数 的 实现 分 别 如 代码 清单 6.11 和 6.12 所 示 。 


代码 清单 6.11 globalmemi $& IK) I] ik PKI AL 


LSLSUtlo B9176 C Globalen readistruecb ILle *rilp, char User ^ DUI. Size L 8126; 
2 loir t * ppos) 


4 unsigned long p = *ppos; 

5 unsigned int count - size; 

o int ret - 0; 

I €Uruce globalmem dev *dev = ILlip-oprtivate Gata; 
8 


9 if (p »- GLOBALMEM SIZE) 


10 return OF 

ll Xf (coun: > GLOBALMEM SIZE = p) 

12 Count = GLOBACMEM -GLARE = P7 

1 

14 xf (copy to user(buf, dev-omem + py, count)) | 
15 ret = —-EFAULI; 

16 ) else { 

17 *ppos. += gout 

18 ret = count; 

19 

20 printk(KERN INFO "read $u bytes(s) from @lu\n", count, p); 
21 } 

dd 

23 return rer; 

24} 


*ppos 是 要 读 的 位 置 相 对 于 文件 开头 的 偏 黎 ， 如 果 该 偏 移 大 于 或 等 于 GLOBALMEM SIZE， 意 味 着 已 
经 到 达 文 件 末尾 ， 所 以 返回 0 CEOF) 。 


代码 清单 6.12  globalmem7 $e SKA H 53 PR R 


locatio SSIz6 © globalmeém write (Struct. fide *11lp, Const Char . user ~ DUI; 
2 Size ee Lott t ~ DDOS) 

24 

4 unsigned long p = *ppos; 

5 unsigned int count = size; 

6 int ret = 0; 

7 struct globalmem dev *dev = filp->private data; 

8 


9 if (p >= GLOBALMEM SIZE) 


10 return 05 

ll itf (count > GLOBALMEM SIZE = p) 

12 count = GLOBALMEM SIZE - p; 

13 

l4 ii (copy from user(dev-smen = p, bury, OCOUDEL)) 
L ret = =~EFAULT; 

16 else { 

17 xpos += Count? 

L8 ret = count; 

19 

20 printk(KERN INFO "written Su bytes(s) from %lu\n", count, p); 
21 } 

22 


23 return ret; 


6.3.4 Seek 国 数 


seek () 函数 对 文件 定位 的 起 始 地 址 可 以 是 文件 开头 CSEEK SET，0) 、 当 前 位 置 (SEEK CUR, 
1) 和 文件 尾 (SEEK END，2) ， 假 设 globalmem 支 持 从 文件 开头 和 当前 位 置 的 相对 偏 移 。 


在 定位 的 时 候 ， 应 该 检查 用 户 请 求 的 合法 性 ， 石 不合 法， 子 数 返回 -EINVAL， 合 法 时 更 新 文件 的 当前 
位 置 并 返回 该 位 置 ， 如 代码 清早 6.13 所 示 。 


代码 清单 6.13 ”globalmem 设 备 驱 动 的 seek O 函数 


Latatio Lone © Globalmem LISeeR(StEHCEL tile ^LLLp, LOIL © OLELSOBLL, ant 0710) 
Z1 
Dc XII moo Us 


4 switch (orig) { 
5 case 0: /* 从 文件 开头 位 置 seek */ 
6 if (offset« 0) { 
| ret = -EINVAL; 
8 break; 
> } 
10 if (unsigned Int)oLrset > GLOBALMEM GLAZE) 1 
11 ret = -EINVAL; 
12 break; 
1.5 } 
14 DIlpcest pos = (Unsigned, Xn5)9rlset; 
15 ree LLID- pos; 
16 break; 
17 case 1: /* 从 文件 当前 位 置 开 始 seek */ 
18 if ((filp->f pos + offset) > GLOBALMEM SIZE) { 
19 ret = -EINVAL; 
20 break; 
21 } 
22 it (ile pos + oliset) < 0) 4 
23 ret = -EINVAL; 
24 break; 
25 } 
26 tio -2 POS we Gilbert; 
Ad per = tLe SOS 
28 break; 
29 default: 
30 ret = -EINVAL; 
31 break; 
32 } 


33 return ret; 


6.3.5 i1octlEA av 


1.globalmemi  £& JR z/] ioctl © 函数 


globalmem 设 备 驱 动 的 ioctl () 函数 接受 MEM CLEAR 命令 ， 这 个 命令 会 将 全 局 内 存 的 有 效 数 据 长 度 
清 0， 对 于 设备 不 文 持 的 命令 ，ioctl ©) 子 数 应 该 返回 -EINVAL， 如 代码 清 蛙 6.14 所 示 。 


代码 清单 6.14 ”globalmem 设 备 驱 动 的 LO 控制 函数 


letatre Jong globaslmem. uooctl(Struot Ile “ralp, Unsigned ane Cmd; 
2 unsigned long arg) 


4 struct globalmem dev *dev = filp->private data; 


case MEM CLEAR: 


S 

6 switch (cmd) { 

7 

8 memset (dev->mem, 0, GLOBALMEM SIZE); 


9 printk(KERN INFO "globalmem is set to zero\n"); 
10 break; 
11 
12 default: 
13 return -EINVAL; 
14  ) 
15 
lo return 05 
14) 


EERIE F, MEM CLEAR 被 安定 义 为 0x01， 实 际 上 这 并 不 是 一 种 值得 推荐 的 方法 ， 人 简单 地 对 命 
令 定 义 为 0x0、0xl、0x2 等 关 似 值 会 导致 不 同 的 设备 豫 动 拥有 相同 的 命令 号 。 如 果 设 备 A、B 都 文 持 0x0、 
0x1、0x2 这 样 的 命令 ， 就 会 造成 命令 个 的 污染 。 因 此 ，Linux 内 核 推 荐 采用 一 套 统 一 的 ioctl O 命令 生成 
2.ioctl O 命令 

Linux 建 议 以 如 图 6.2 所 示 的 方式 定义 ioctl]〈() 的 命令 。 


设备 类 型 ERI 





图 6.2 ”LO 控制 命令 的 组 成 


命令 但 的 设备 类 型 字段 为 一 个 “ 约 数 ”， 可 以 是 0~0xf 的 什 ， 内 核 中 的 ioctl-numbertxt 给 出 了 一 些 推荐 的 
和 已 经 极 使 用 的 “ 约 数 ”， 新 设备 驱动 定义 “ 约 数 ”的 时 候 要 避免 与 其 神 突 。 
命令 但 的 序列 亏 也 是 8 位 宽 。 


命令 码 的 方 癌 字段 为 2 位 ， 访 字段 表示 数据 传送 的 方向 ， 可 能 的 值 是 IOC NONE (无 数据 传输 )、 
IOC READ ( 读 ) IOC WRITE (5) 和 IOC READ] IOC WRITE (双向 ) 。 数 据 传 送 的 方向 是 从 应 
用 程序 的 角度 来 看 的 。 


命令 但 的 数据 长 度 字 段 表 示 涉 及 的 用 户 数据 的 大 小 ， 这 个 成 员 的 宽度 依赖 于 体系 结构 ， 通 癌 是 13 或 者 
14 位 。 


内 核 还 定义 了 _IO ©) IOR ©) IOW O 和 _IOWR O 这 4 个 宏 来 辅助 生成 命令 ， 这 4 个 宏 的 通 
用 定义 如 代码 清单 6.15 所 示 。 


代码 清单 6.15 IO O. IOR ©, IOW O 和 IOWR O 宏 定义 


li#define  IO(type,nr) _IOC( IOC NONE, (TYPS) yy (nr) 0) 

2#define  IOR(type,nr,size)  IOC( IOC READ, (type), (nr), 

3 ( IOC TYPECHECK (size))) 

Atdefine  IOW(type,nr,size) IOC( IOC WRITE, (type), (nr),\ 

5 ( IOC TYPECHECK (size))) 

6#define  IOWR(type,nr,size) IOC( IOC READ| IOC WRITE, (type), (nr), \ 
( 


7 
8/* IO. IOR 等 使 用 的 IOCZ*/ 
9#define  IOC(dir,type,nr,size) \ 


TOC TYXPECHECK(SIZe))J 


10 (((dir) << IOC DIRSHIFT) | \ 
ut ((type) << IOC TYPESHIFT) | \ 
I ((nr) << IOC NRSHIFT) | \ 
13 ( (size) << IOC SIZESHIFT)) 


由 此 可 见 ， 这 几 个 宏 的 作用 是 根据 传 入 的 type (设备 类 型 字段 )、nr (序列 号 字段 ) 、size (数据 长 度 
字段 ) 和 宏 名 隐 含 的 方向 字段 移 位 组 合生 成 命令 码 。 


由 于 globalmem 的 MEM_CLEAR 命 令 不 涉及 数据 传输 ， 所 以 它 可 以 定义 为 : 


#define GLOBALMEM MAGIC 'g' 
#define MEM CLEAR  IO(GLOBALMEM MAGIC, 0) 


3. 预 定义 命令 


内 核 中 预定 义 了 一 些 UO 控 制 命令 ， 如 果 某 设备 驱动 中 包含 了 与 预定 义 命令 一 样 的 命令 码 ， 这 些 命令 
会 作为 预定 义 命令 被 内 核 处 理 而 不 是 被 设备 驱动 处 理 ， 下 面 列举 一 些 常用 的 预定 义 命令 。 


FIOCLEX: 即 File IOctl Close on Exec， 对 文件 设置 专用 标志 ， 人 退 知 内 核 当 exec〈() 系统 调用 及 生 时 目 
KFT FP SCF 


FIONCLEX: 即 File IOctl Not Close on Exec， 与 FIOCLEX 标 志 相 反 ， 清 除 由 FIOCLEX 命 令 设 置 的 标 


FIOQSIZE: 获得 一 个 文件 或 者 目录 的 大 小 ， 当 用 于 设备 文件 时 ， 返 回 一 个 ENOTTY 错 误 。 
FIONBIO: 即 File IOctl Non-Blocking IO， 这 个 调用 修改 在 flp->f flags 中 的 O NONBLOCK 标 志 。 


FIOCLEX、FIONCLEX、FIOQSIZE 和 FIONBIO 这 些 宏 定义 在 内 核 的 include/uapi/asm-generic/ioctls.h 文 
件 中 。 


6.3.6 ”使 用 文件 私有 数据 


6.3.1~6.3.5 节 给 出 的 代码 完整 地 实现 了 预期 的 globalmem 锥 形 ， 代 码 清单 6.11 的 第 7 行 ， 代 人 码 清 单 6.12 
的 第 7 行 ， 代 码 清单 6.14 的 第 4 行 ， 都 使 用 T struct globalmem dev*dev=filp->private data 获 取 globalmem dev 
的 实例 指针 。 实 际 上 ， 大 多 数 Linux 驱 动 遵循 一 个 “ 潜 规 则 ”， 那 就 是 将 文件 的 私有 数据 private_data 指 向 设 
备 结构 体 ， 再 用 read O . write © . ioctl © Ilseek O 等 函数 通过 private data 访问 设备 结构 体 。 私 有 
数据 的 概念 在 Linux 驶 动 的 各 个 子 系统 中 广泛 存在 ， 实 际 上 体现 了 Linux 的 面向 对 象 的 设计 思想 。 对 于 
globalmem 驱 动 而 言 ， 私 有 数据 的 设置 是 在 globalmem open O 中 完成 的 ， 如 代码 清单 6.16 所 示 。 


代码 清单 6.16 globalmemix AIK open ©) 函数 


lstatic ane globalnem open(sLtruct node “inode, sSstrucb tale. *ELLD) 


21 

3 Cilp- private data = globalmem devp; 
4 return 0; 

2] 


为 了 让 读者 建立 字符 设备 驱动 的 全 貌 视 图 ， 代 人 码 消 单 6.17 列 出 了 完整 的 使 用 文件 私有 数据 的 
globalmem 的 设备 张 动 ， 本 程序 位 于 本 书 配套 虚拟 机 代码 的 /kerneldrivers/globalmenxych6 目 录 下 。 


代码 清单 6.17 使 用 文件 私有 数据 的 globalmem 的 设备 驱动 


Turm 

2 * a simple char device driver: globalmem without mutex 
3 大 

4 * Copyright (C) 2014 Barry Song (baohua@kernel.org) 

口 大 

6 * Licensed under GPLv2 or later. 

d ey 

8 


9#include <linux/module.h> 
10#include <linux/fs.h> 
liginclude <linux/init.h> 
i2geinclude <linux/cdev.h> 
13#include <linux/slab.h> 
14#include <linux/uaccess.h> 
15 
16#define GLOBALMEM SIZE 0x1000 
17#define MEM. CLEAR 0x1 
18#define GLOBALMEM MAJOR 230 
19 
20static int globalmem major = GLOBALMEM MAJOR; 
21module param(globalmem major, int, S IRUGO); 


22 

23scruct globalmem dev 4 

24 struct cdev cdev; 

25 unsigned char mem[GLOBALMEM SIZE]; 

26]; 

2 

28struct globalmem dev *globalmem devp; 

29 

3Ustatrio int globalmem openistruct anode “anode, struct. file *fiip) 
2d 

32 Illpe-prrivate data -—-ulobalmen devy? 

33 return 0; 

34} 

39 

369Static int GClobalmem release(struct inode “inode, Sstruce file YELL) 
2 

38 return 0; 

39] 

40 


Alstatrio Long globalmem 1iocbtl(sctrüct tile *Iilp; unsigned ant cma, 


42 unsigned long arg) 

43{ 

44 struct. globalmem dev *dev = ilp- -private data; 
45 

46 switch (cmd) { 

a? cose MEM CERAR? 


48 memset(dev-»mem, 0, GLOBALMEM SIZE); 

49 printk(KERN INFO "globalmem is set to zero Wn"); 
50 break; 

5d 

52 default: 

5S return -EINVAL; 

54 } 

99 

506: qeu X 

5:5 

Se 

SJSbalic ssrae t globarimem read (Sstruce. tile "Pulp. chan user = bul, 
60 LOLE © 2p pos) 

614 

62 unsigned long p = *ppos; 

63 unsigned int count = size; 


64 int ret = 0; 

Go Struct ghobalmen.dey uev e rrlbpe:prrvdbte data; 
66 

67 XI («p 2=-GLOBALMEM SIZE) 


68 peburm.05 

09 f (count > GLOBALMEM.SIZE,: p) 

TO count = GbOBALMEM. SIZE = “py 

TA 
ee 
73 ret = -EFAULT; 

74 } else { 

ies ^DDOS = CUNE; 

76 ret. = count; 

PE 

78 printk(KERN INFO "read $u bytes(s) from alun"; count, p); 
Lo) uy 

80 

ol return Ker; 

82] 

Q9 

Sa Statue. SS rz b globodimem write, (Struc. ttle: = Llp -CONS Chat 
35 S328 inge. LOL. -pes 
86 { 

87 unsigned long p = *ppos; 

88 unsigned int count = size; 


39: Mnt cet = OF 

DU Struct: globalmemn dev “dew = Ciips privar e data; 
24. 

92 A Xp 2= -GLOBALEMEM) LAE) 


93 return 0; 

94 X SoOoount = GLOBALMEM SIZE = qm) 
95 count = GDOBALMEM SIZE xh oy 
96 


97. ak COPY Irom user (dev=smem py. urbs COUNT) 
98 ret = -EFAULT; 


99 else { 
EOQ OS qe COUN) 
LOI ret =n GOUNE? 
1.02 
103 printk(KERN INFO "written $u bytes(s) from blu\n", 
LOA x 
TOS 
100: secum Lew: 
107 } 
108 


GOUN Ey 


HDDOSSLSLLIO ort b gblobDelmem Jiseew(srruce: TALS I LOLL C Obiser, 


LLOJ 
LLL OLE t- Tec- = 05 
TLZ Switch (Orig): 4 


Lo Case Or 

114 if (offset < 0) { 

OM Mes ret = -EINVAL; 

116 break; 

LEZ } 

118 Lf (unsigned int)olrset > GLOBALMEM- SIZE) 4 
119 ret = -EINVAL; 

120 break; 

Val } 

122 ELL pei pos “Uns lene? Int orhset. 

LZ per = qSLDpesr pos. 

124 break; 

1:25: CaSe d: 

126 if ((filp->f pos + offset) > GLOBALMEM SIZE) { 
do 2f ret = -EINVAL; 

1220 break; 


L29 } 


p); 


Size 2126, 


_ User oss 


EnC Orig) 


130 LE ((f1lp >{ pos + Oise) < Dy 4 
131 ret = -EINVAL; 

132 break; 

113 } 

134 ile >t pos += OLLSeSt; 

1:35 pet = SLHpe pos; 

136 break; 

137 default: 

138 ret - -EINVAL; 

129 break; 

140 } 

141 return ret; 

142} 

143 

I445taLtlc const Struct iile operations globalmen tops = 1 


145 .owner = THIS MODULE, 

146 .llseek = globalmem llseek, 
Ia) redd = goobalmem read; 

148 awrite = globalmem write, 


149 unlocked ioctl = globpalmen 100t1; 


150 .open = globalmem open, 


191 56160996. qlobalmem release, 


15215 
15.9 


154static void globalmem setup cdev(struct globalmem dev *dev, int index) 


Loo 


156 int err, devno = MKDEV(globalmem major, index); 


1:37 


158 cdev init(&dev-»cdev, &globalmem fops); 


1959 dev=>cdev.owner = THis MODULE; 


l60 err = Cdev addtesdeve-cdev, l); 

161 if (err) 

162 printk(KERN NOTICE "Error $d adding globalmem$d", err, index); 
165] 

164 

lo50staLLic Lue . igit globalnem. anit (voro) 

1661 

167 int ret; 

168 dev t devno = MKDEV(globalmem major, 0); 

169 

170 if (globalmem major) 

Lire Pet = reg Leter chnrdev regron(devno, Li. "globalmenm")s 
172 else { 

173 pet = alloc ochHrdev reogrion(&sdevno, U; jy “globalmem”™) 7 
174 globalmem major = MAJOR (devno) ; 

Li g 

176 if (ret < 0) 

177 return ret; 

178 


179 globalmem devp = kzalloc(sizeof(struct globalmem dev), GFP KERNEL); 


180 if (!globalmem devp) { 
181 ret = -ENOMEM; 
1942 goro Bell malloc; 
Loo J 

184 


185 globalmem setup cdev(globalmem devp, 


186 return 0; 
187 
199. Tail malloc: 


1992 unteogister chrdev. region (cdevno, 


L90 return Let; 

121] 

192module init(globalmem init); 
1239 


l9455L8LlC vold . exit globalmem exic(ivord) 


49951 


196 cdev del(&globalmem devp->cdev) ; 


197 kfree(globalmem devp); 


UE 


198 unregister chrdev region (MKDEV (globalmem major, 0), 1); 


199} 
200module exit(globalmem exit); 
201 


202MODULE AUTHOR("Barry Song «baohua(8kernel.org»"); 


ZUSMODULE LEICENSE( "CP w2")7 
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读者 朋友 们 ， 这 个 时 候 ， 请 


人 
JOD 


翻 到 本 书 的 第 1 章 ， 再 次 阅读 代码 清单 1.4， 即 Linux 下 LED 的 设备 


如 果 globalmem 个 只 包括 一 个 设备 ， 而 是 同时 包括 两 个 或 两 个 以 上 的 设备 ， 采 用 private data) lA we. 


会 集中 显现 出 来 。 在 不 对 代码 清单 6.17 中 的 globalmem read O 、globalmem write © ~ 

globalmem ioctl O 等 乍 要 函数 及 globalmem fops 结 构 体 等 数据 结构 进行 任何 修改 的 前 提 下 ， 只 是 简单 地 
修改 globalmem init () 、globalmem exit () 和 globalmem open © ， 就 可 以 轻松 地 让 globalmem 驱 动 中 包 
NSAI CRI SIT AON) ， 如 代 但 清单 6.18 列 出 了 文 持 多 个 实例 的 globalmem 和 文 持 单 实例 
的 globalmem 驱 动 的 差异 部 分 。 


代码 清单 6.18 3 dRINTglobalmemi # HJ globalmemJKZ)) 


l#define GLOBALMEM SIZE Os. 0:00 

2#define MEM CLEAR 0X1 

3#define GLOBALMEM MAJOR 230 

4#define DEVICE NUM LO 

5 

OStatic. Ne globalmem open(struce anode. *1nodey. struce. file = LID) 
71 

oO. Struct globdlmem dev. "dev = wontalHer ort'rJode--r icdev, 
9 sScruct dqlobelmemn xev; -OGdev); 
ELO ti bor priva tedata = dey; 
Ll -retürmu v; 


12} 

2 

lagtatric ine . ant globalmem inte (vod) 

1:53 

LG ant rert; 

Lk XD. iy 

IS. dev t devno = MKDEV(globalmem major, 0); 

LY 

20 if (globalmem major) 

ZA: pet = regusver -chrdev: region (devno,. DEVICE NUM, "grlobalmem"); 
22 else { 

ZS ret — alloc chHrdev region(sdevno, 0, DEVICE NUM, "globalmem"); 
24 globalmem major = MAJOR (devno); 

Zo 3} 

245. 'N3B Arer < 0» 

zc return ret; 

28 


29. -grobalmem deve. = kzalloc(ssa2eotf(struct globalmem dev) =  DEVECE..NUM, GEP KERNEL); 
30 if (!globalmem devp) { 


Sek ret = -ENOMEM; 

32 goto tail malloc; 

2:95 4 

34 

So: Or i = Oy a = DEVICE NUM) 

36 globalmem setup cdev(globalmem devp + 1, 1); 
3 

so Ceturn 97 

39 


A0rall malloo: 
4l unregister chrdev region(devno, DEVICE NUM); 
42 return ret; 


43) 

44module init(globalmem init); 

45 

Jostatic void exit globalmem exit(voird) 

47 ( 

AS. Amt E 

49 Lor Ci = iO wx DEVICE NUM; 1 十 十 ) 

50 cdev- del(s(globalmem devp 4 1)=>cdev); 


9l kfree(globalmem devp); 

32 unregister chrdoev regrlon(MRDEViglobalimemn major; UO). DEVICE NUM) 
92 

odmodule exit(globalmem exit); 


代码 清单 6.18 第 8 行 调用 的 container of ©) 的 作用 是 通过 结构 体 成 员 的 指针 找到 对 应 结构 体 的 指针 ， 
这 个 技巧 在 Linux 内 核 编程 中 十 分 第 用 。 在 container of (inode->i cdev，struct globalmem dev，cdev) 语句 
中 ， 传 给 container of O 的 第 1 个 参数 是 结构 体 成 员 的 指针 ， 第 2 个 参数 为 整个 结构 体 的 类 型 ， 第 3 个 参数 


为 传 入 的 第 1 个 参数 即 结构 体 成 员 的 类 型 ，container of O 返回 值 为 整个 结构 体 的 指针 。 


从 代码 清单 6.18 可 以 看 出 ， 我 们 仅仅 进行 了 极其 少量 的 更 改 束 使 得 globalmem 张 动 支 持 多 个 实例 ， 这 
— ua ul EE HALA AEJ]. WRI T kernel/drivers/globalmem/ch6/multi globalmem.c F> fay Fu 
globalmem.c 和 multi globalmem.c《 以 “-”* 和 “+” 开头 的 代码) 的 区 别 如 下 : 


GG o-29,7 430,9 88 Struct globalmem dev *globalmem. devp; 
State nt-giobslmem Openi(stoucct. node nodes Struct file "IIID) 


{ 


Lip pLivale data = globalmem- devps 

Scruct Globalmem dev dev — Container or (1node=>2 .cdév, 
struct globalmem dev, cdev); 

Lrlpsesprrivate data ‘= dev; 

return. Q; 


+ + + 


j 
Ce —165,97 1698,52 CC Statio void globalmem setup cdevistruct globalmem dew *dev, 
int index) 
Stacie ane. ane: globadlmem CXnitovosd) 
{ 
Int ret; 
+ SUPE Ly 
dev t devno = MKDEV (globalmem major, 0); 
if (globalmem major) 


= reb = Legio Cer cHrdev reglcon(devno;. d. "globalmem"). 

t tel, = reg oter cbrdev reocomntedevno; DEVICE NUM, "globatmem"). 
else { 

S ren e alloc chrdev cregron(sdevno,. 0, -Ly *"globoslmem'; 

十 pert = alLlocobroev regrontsdevno,. by DEVICE NUM, “olobalmem™);; 


globalmem major = MAJOR (devno); 
) 
if (ret « 0) 
return ret; 
— Globalmem devp = kzalloc(srzeor(sutrucc globalmem dev); GEP KERNEL) 7 


二 globalmem devp = kzalloc(sizeof (struct globalmem dev). * DEVICE NUM, GFP KERNEL); 
if (fglobalmem. devp) 1 
ret = -ENOMEM; 


goto faa malloc; 
j 
globalmem setup-odevigloDalmem.devp; 90); 
F Lor dno cA uoc DEVICE: NUM: SE 
T globalmem setup cdéev (globalmem devp F <a) <b) 7 
十 


return 0y 
= (rel mad Loc 
一 人 
Theda, meal oes 
+ umregrister/ ohrdev regron(devno, DEVICE NUM); 
return ret; 
) 
module rznic(globalmem.01t); 
Salli void «cecoglobalmem exrttvorq) 
{ 
= cdev del(&globalmem devp-»cdev); 


十 IC du 
T Ol dq 30g Eom DEVLOE. NUME uis) 
十 cdev- del(S&(globalmem devp +1.) =>cdev) 7 
kfree(globalmem devp); 
ES unregister chrdev regron(MKDEV(globalmenm major, 0), IJ; 
F unregister chrdev region (MKDEV (globalmem major, 0), DEVICE NUM); 


} 


module exit(globalmem exit); 


6.4 globalmemJIX ZJ 4E H J^? 28 [B] FH E] Jub 
7EglobalmemH HARIS H 3388 “make” it 4 Zim  globalmemAYy 3X2), 74 24llelobalmem.ko X fF. i&íT 


baohua8baohua-VirtualBox:-/develop/training/kernel/drivers/globalmem/ch6$ sudo 
insmod globalmem. ko 


命令 加 载 模 块 ， 退 过 “lInsmod”* 命 令 ， 友 现 globalmem 模 块 已 被 加 载 。 再 退 过 “cat/proc/devices” 命 令 但 
看 ， 发 现 多 出 了 主 设备 号 为 230 的 “globalmem ”字符 设备 驱动 : 


S cat /proc/devices 
Character devices: 
lmem 
4/dev/vc/0 
4tty 
4ttys 
5/dev/tty 
5/dev/console 
5/dev/ptmx 
TVCS 
1Omisc 
L3anput 
14sound 
21sg 
ZOTb 
lloalsa 
1:2 Ot 
l136pts 
180usb 
159u8D device 
202cpü/msr 
203cpü/cpuüid 
226drm 
2 3 globalmem 
249hidraw 
250usbmon 
251bsg 
Zo2ptpo 
ZOOS 
254rtc 


接 下 来 ， 通 过 命令 
#mknod /dev/globalmem c 230 0 


GJ ££ */dev/globalmem" 1x #4 1i ki, = FFI echo'hello world'>/dev/globalmem’ fit 4 4l cat/dev/globalmem" fig 4 47 


别 验 证 设备 的 写 和 读 ， 结 果 证 明 “hello world” 字 符 串 被 正确 地 写 入 了 globalmem 字 从 设备 : 


# echo "hello world" > /dev/globalmem 
# cat /dev/globalmem 
hello world 


如 果 启 用 了 sysfs 文 件 系统 ， 将 发 现 多 出 了 /sys/module/globalmem 目 录 ， 该 目录 下 的 树 形 结构 为 : 


.l-- coresize|— holders} — initsize|-— initstate}+- notes} — parameters| L— globalmem major}; — refcnt}— sections 


refentid K 了 globalmem 模 块 的 引用 计数 ，sections 下 包含 的 几 个 文件 则 给 出 了 globalmem 所 包含 的 BSS、 


数据 段 和 代码 段 等 的 地 址 及 其 他 信息 。 


对 于 代码 清单 6.18 给 出 的 文 持 N 个 globalmem 设 备 的 张 动 ， 在 加 载 模块 后 需 创 建 多 个 设备 和 点 ， 如 运行 
mknod/dev/globalmem0c 2300 使 得 /devwglobalmem0 对 应 主 设备 号 为 globalmem major, RRA SNORE., 
运行 mknod/devwglobalmemlc 2301 使 得 /dewglobalmem1 对 应 主 设备 号 为 globalmem major、 次 设备 号 为 1 的 设 
备 。 分 别 读 写 /dewglobalmem0 和 /dewglobalmem1， 发 现 都 该 写 到 了 正确 的 对 应 的 设备 。 


6.5 i 


40 =A 


字符 设备 是 3 大 类 设备 《字符 设备 、 块 设备 和 网 络 设备 ) 中 的 一 类 ， 其 驱动 程序 完成 的 主要 工作 是 初 
始 化 、 添 加 和 删除 cdev 绪 构 体 ， 申 请 和 释放 议 备 志 ， 以 及 项 苑 f 和 e_ operations fA "P HJBRTEPNZA SEE 
file operations 结 构 体 中 的 read O ~ write ©) #llioctl O 等 郊 数 是 驱动 设计 的 主体 工作 。 


e 


"BIS  Linuxix K IKa P pI Aca ni 


本 章 导读 


在 Linux 设 备 驱 动 中 必须 解决 的 一 个 问题 是 多 个 进程 对 共 圣 资源 的 并 友 访 问 ， 并 友 的 访问 会 村 致 苋 


即使 是 经 验 丰 明 的 驱动 工程 是 也 会 沼 第 设计 出 包含 并 友 问 题 bug 的 驱动 程序 。 
Linux 提 供 了 多 种 解决 苋 态 问题 的 方式 ， 这 些 方式 适合 个 同 的 应 用 场景 。 

7.1 方 讲解 了 并 友和 苋 态 的 概念 及 友 生 场合 。 

7.2 证 则 讲解 了 编 详 乱 序 、 执 行 配 序 的 问题 ， 以 及 内 存 屏 障 。 

7.3~7.8 贡 分 别 讲解 了 中 断 屏 营 、 原 子 操作 、 上 自 旋 锁 、 信 号 量 和 互 斥 体 等 并 发 控制 机 制 。 


7.9 廊 讲解 增加 并 发 控制 后 的 globalmem 的 设备 驱动 。 


71 FRIA 


FE (Concurrency) 指 的 是 多 个 执行 单元 同时 、 并 行 被 执行 ， 而 并 用 的 执行 单元 对 共 孚 资源 〈 便 件 资 
源 和 软件 上 的 全 局 变量 、 静 态 变 量 等 ) 的 访问 则 很 容易 导致 竞 态 (Race Conditions) 。 例 如 ， 对 于 
globalmem 设 备 ， 假 设 一 个 执行 单元 A 对 其 写 入 3000 个 字符 “a”*”， 而 男 一 个 执行 单元 B 对 其 写 入 4000 个 “b”， 
第 三 个 执行 蛙 元 C 读 取 globalmem 的 所 有 字符。 如 果 执 行 蛙 元 A、B 的 与 操 作 按 图 7.1 那 样 顺 序 友 生 ， 执 行 早 
元 C 的 读 操作 当然 不 会 有 什么 问题 。 但 是 ， 如 采 执 行 单元 A、B 投 图 7.2 那 样 被 执行 ， 而 执行 单元 C 又 “不 合 
时 宜 ? 却 谈 ， 则 会 谈 出 3000 个 “b”。 


执行 单元 A 执行 单元 B 执行 单元 C 


copy from. user (dev->mem+p, buf, count) 


dev-- current... len-p*count 


read. globalmem() 


copy from. user (dev—>mem+p, buf, count) 


dev—> current _len=p+count 


read. globalmem() 


图 7.1 并 友 执 行 单元 的 顺序 执行 


执行 单元 A 执行 单元 B 执行 单元 C 


dev—> current _len=p+count 


图 7.2 ”并 友 执 行 单元 的 交错 执行 


比 图 7.2 更 复杂 、 更 混乱 的 并 发 大 量 存 在 于 设备 驱动 中 ， 只 要 并 发 的 多 个 执行 单元 存在 对 共享 资源 的 
访问 ， 竞 态 就 可 能 发 生 。 在 Linux 内 核 中 ， 主 要 的 竞 态 发 生 于 如 下 几 种 情况 。 


1 .对 称 多 处 理 器 CSMP) 的 多 个 CPU 


SMP 有 古 一 种 紧 灯 合 、 共 于 存储 的 系统 模型 ， 其 体系 结构 如 图 7.3 所 示 ， 它 的 特点 十 多 个 CPU 使 用 共同 
的 系统 忌 线 ， 因 此 可 访问 共同 的 外 设 和 储存 此 。 





图 7.3” SMP 体系 结构 


在 SMP 的 情况 下 ， 两 个 核 《CPU0 和 CPU1) 的 苋 态 可 能 有 反 生 于 CPU0 的 进程 与 CPU1 的 进程 之 间 、 
CPU0 的 进程 与 CPU1 的 中 断 之 间 以 及 CPU0 的 中 断 与 CPU1 的 中 断 之 间 ， 图 7.4 中 任何 一 条 线 连 接 的 两 个 实 
TAS AIA AZ TAFE AC FY RETE o 














图 7.4 SMP 下 多 核 之 间 的 竞 态 


2. 单 CPU 内 进程 与 抢占 它 的 进程 


Linux 2.6 以 后 的 内 核 支 持 内 核 抢 占 调度 ， 一 个 进程 在 内 核 执 行 的 时 候 可 能 耗 完 了 利己 的 时 间 片 
(timeslice) ， 也 可 能 被 另 一 个 高 优先 级 进程 打 断 ， 进 程 与 抢占 它 的 进程 访问 共享 资源 的 情况 类 似 于 SMP 
的 多 个 CPU。 


3. 中 断 〈 硬 中 断 、 软 中 断 、Tasklet、 底 半 部 ) 与 进程 之 间 
中 断 可 以 打 断 正在 执行 的 进程 ， 如 果 中 断 服 务 程序 访问 进程 正在 访问 的 资源 ， 则 兑 态 也 会 发 生 。 


此 外 ， 中 断 也 有 可 能 被 新 的 更 高 优先 级 的 中 断 打 断 ， 因 此 ， 多 个 中 断 之 间 本 映 也 可 能 引起 并 发 而 导致 
竞 态 。 但 是 Linux 2.6.35 之 后 ， 就 取消 了 中 断 的 嵌 套 。 老 版 本 的 内 核 可 以 在 申请 中 断 时 ， 设 置 标记 
IRQF_DISABLED 以 避免 中 汤 舱 套 ， 由 于 新 内 核 直 接 束 默认 不 散人 套 中 汤 ， 这 个 标记 反而 变 得 无 用 了 。 评 情 
见 https://1wn.net/Articles/380931/ 文 档 «Disabling IRQF DISABLED) . 


上 上述 并 及 的 安生 除了 SMP 坪 真正 的 并 行 以 外 ， 其 他 的 都 是 单 核 上 的 “宏观 并 行 ， 微 观 串 行 ”， 但 其 引 及 


的 实质 问题 和 和 SMP 相似 。 图 7.5 再 现 了 了 SMP 情况 下 总 的 苋 争 状态 可 能 性 ， 既 包含 系 一 个 核 内 的 ， 也 包括 两 


SH IRL] SAS o 











图 7.5 SMP Px lH) SAKA GEARS 


PRR TEA H 78. BI] eR Fe PRUE MT FEE EVR HL Fe Te), A BR Og H ee tat T 341 EEV IH] 2&7 9t)R 
的 时 候 ， 其 他 的 执行 单元 被 茶 止 访问 。 


访问 共 画 资源 的 代码 区 域 称 为 临界 区 (Critical Sections) ， 临 界 区 需要 被 以 某 种 互 斥 机 制 加 以 保护 。 
HT BEA. JY EIE. BOWEBA. (Bo. AOR ARS XELinuxie Ub Jr nu] RA A EL FEAR 46 


7.2. 编 详 乱 序 和 执行 乱 序 


理解 Linux 内 核 的 锁 机 制 ， 还 需要 理解 编译 磺 和 处 理 右 的 特点 。 比 如 下 面 一 段 代码 ， 与 十 申请 一 个 新 
的 struct foo 结 构 体 并 初始 化 其 中 的 a、b、c， 之 后 把 结构 体 地 址 赋值 给 全 局 gp 指针 : 


struct foo { 

int as 

int D? 

int Ce 
E 
Struct foo gb = NULL; 
Pr a s "y 
kmalloo(sSLzeof(^p), GEP KERNEL); 
1; 
2 
oi 


p = Km 
i-e. = 
p->b = 
p=7C = 
oF > 


e. 
, 


p 
而 谈 病 如 示人 简单 做 如 下 处 理 ， 则 程序 的 运行 可 能 和 是 不 人 符合 预期 的 : 


r = gp 
af AP PS NULD) 1 

do something with(p >a, p>b; pose) 
j 


有 两 种 可 能 的 原因 会 造成 程序 出 错 ， 一 种 可 能 性 是 编 详 乱 序 ， 万 外 一 种 可 能 性 是 执行 乱 序 。 


关于 编译 方面 ，C 语 言 顺序 的 “p->a=1; p->b=2; p->c=3; gp=p; ”的 编译 结果 的 指令 顺序 可 能 是 gp 的 
赋 信 指令 及 生 在 a、b、c 的 骨 信 之前。 现代 的 高 性 能 编 详 硕 在 目标 但 优化 上 都 共 备 对 指令 进行 乱 序 优化 的 
能 力 。 编 详 苍 可 以 对 访 仓 的 指令 进行 乱 序 ， 减 少 逸 辑 上 不 必要 的 访 仔 ， 以 及 尽量 迫 高 Cache 命中 率 和 CPU 
的 Load/Store 早 元 的 工作 效率 。 因 此 在 打开 编 详 从 优化 以 后 ， 看 到 生成 的 汇编 代 并 没有 严格 按照 代码 的 地 
ARS, XE E H o 


解雇 编 详 乱 序 问 题 ， 需 要 通过 barrier () 编译 屏障 进行 。 我 们 可 以 在 代码 中 设置 barrier() BEM, 3x 
个 屏障 可 以 阻挡 编译 右 的 优化 。 对 于 编译 右 来 说 ， 设 置 编译 屏 障 可 以 保证 屏障 前 的 语句 和 屏障 后 的 语句 不 
BLUT. 


比如 ， 下 面 的 一 段 代 码 在 e=d[4095] 与 b=a、c=a 之 间 没 有 编译 屏障 : 


Int marn(int argc, char *acxgvLll) 
{ 
int a = 0, b, c, dal4096], e; 
e = d[4095]; 
b = a; 
C= a; 
printf ("avca bd Cicd Erman a, bj cp, 6)32 
return 05 


^arm-linux-gnueabihf-gcc-O2" Rimi, IL 2m RE: 


rnt main(int argo, har 下 | 


{ 


So Ley. T3590 push. r4, roy Lr} 
831e: f5ad 4d80 sub.w sp, sp, #16384 ; 0x4000 
oo2 DOSS sub Sou GZ 
go24 s 21.00 movs rl, #0 
OSZ68- debo. 42530 add.w 5y Sp; 350145394 ; 0x4000 
O32g$ 1249-2018 movw r0, #33816 ; 0x8418 
832e: 3504 adds r5, #4 
8330: 460a MOV: XE. X -> b= a 
G2 «ODD MOV. 3g Xu -> C= a 
to gde L260 30019 movt r0, #0 
9.9 359€ "062€ ones ew [ES Sp 
833a: 9400 str r4, [sp, #0] -> e = d[4095]; 
OOo TJI erdd Dix. 6268 4 ANLEO? 
) 
显然 ， 尺 管 源 代码 级 别 b=a、c=a 发 生 在 e=d[4095] 之 后 ， 但 是 目标 代码 的 b=a、c=a 指 令 发 生 在 


e=d[4095] 之 前 。 
假设 我 们 重新 编写 代码 ， 在 e=d[4095] 与 b=a、c=a 之 间 加 上 编译 屏障 : 


#define barrier() asm 


OLB qwe I 
int main(int argc; char-Aargy| |) 


{ 


:"memory"™) 


int a = 0, b, c, 
e = d[4095]; 
barrier (|)? 

b = a; 

C= a; 
printpr(tasco besed .c:vd e:2d\n"; a; 
return 30. 


dg [4096]; E> 


Dy dy 9) 


册 次 用 “arm-linux-gnueabihfgcc-O02” 优 化 编译 ， 反 汇编 结 末 是 : 


ine main(int argc; char *argwrl) 


{ 


Bowes ,DLO push {r4, 1r} 

831e: foad 4d80 sub.w Sp, sp, #16384 ; 0x4000 
o23229t 0852 sub- Spy: de 

93245 Loud 2360 add.w r3, sp, #16384 = (040:00 
83267 $3504 adds r3, #4 

832a: Sol Joc uud. TES; Ww] 

83207 2100 movs rl, #0 

S32e% £248 4018 movw r0, #33816 = 0x8418 

029929. E200 0000 movt r0, #0 

8336: 9400 StE 14,5. lsp; F0] -> e = d[4095]; 
8338: 460a 人 -> b= a; 
833a: 460b Mov: Sag: € -> C= a; 
65568 TCL erdi DIX 3280 < IDnLtt0x20-2 


Jj“ asm volatile — (""; 


bo" Ts 


"memory") ”这 个 编 详 屏障 的 人 存在， 原来 的 3 条 指令 的 顺序 “ 氢 乱 


天 于 解决 编 详 乱 序 的 问题 ，C 语 言 Volatile 关 键 字 的 作用 较 蚤 ， 它 更 多 的 只 是 避免 内 存 访 问 行为 的 合 
并 ， 对 C 编 译 夯 而 言 ，volatile 是 暗示 除了 当前 的 执行 线索 以 外 ， 其 他 的 执行 线索 也 可 能 改变 茶 内 存 ， 所 以 
它 的 食 义 是 “ 易 变 的 "。 换 句 话 襄 ， 束 是 如 来 线程 A 读 取 var 这 个 内 存 中 的 变量 两 次 而 没有 修改 var， 编 详 右 
可 能 觉得 读 一 次 束 行 了 ， 第 2 次 直接 取 第 1 次 的 结果 。 但 是 如 果 加 了 volatile 关 键 字 来 MI ie Er YF 
In eae OPEB. RIEC EA HABIT KAN pevar Y. Bm EANA ERTEAN IN 2B 2K VALE 
RRRS o yh. volatiiet AAG RI MRE. Ac Linux 4% ie AAS volatile, 


A, GK 


乡 合 Var， 


JX 


可 参考 内 核 源 代码 下 的 文档 Documentation/volatile-considered-harmful.txt。 


编 详 乱 序 古 编 详 旧 的 行为 ， 而 执行 配 序 则 是 处 理 问 运行 时 的 行为 。 执 行 乱 友 是 指 即 便 编 详 的 二 进 制 指 
令 的 顺序 按照 ->a=1; p->b=2; p->c=3; gp-p: ”排放 ， 在 处理 右 上 执行 时 ， 后 友 冉 的 指令 还 是 可 能 先 执 
行 完 ， 这 是 处 理 器 的 “ 乱 序 执行 COut-of-Order Execution) ”策略 。 高 级 的 CPU 可 以 根据 自己 缓存 的 组 织 特 
性 ， 将 访 存 指令 重新 排序 执行 。 连 续 地 址 的 访问 可 能 会 先 执行 ， 因 为 这 样 缓存 命中 率 局 。 有 的 还 允许 访 存 
的 非 阻 睡 ， 即 如 果 前 面 一 条 访 存 指令 因为 缓存 不 命中 ， 千 成 长 延 时 的 存储 访问 时 ， 后 面 的 访 存 指 令 可 以 先 
执行 ， 以 便 从 绥 和 存 中 取 数 。 因 此 ， 即 使 是 从 汇编 上 看 顺序 正确 的 指令 ， 其 执行 的 顺序 也 十 个 可 预知 的 。 


举 个 例子 ，ARM v6/v7 的 处 理 器 会 对 以 下 指令 顺序 进行 优化 。 


假设 第 一 条 LDR 指 令 寻 致 缓存 未 命中 ， 这 样 缓存 驶 会 填充 行 ， 并 需要 较 多 的 时 钟 周期 才能 完成 。 老 的 
守 这 个 动作 完成 ， 再 执行 下 一 条 STR 指令 。 而 ARM v6/v7 处 理 器 会 识 
于 第 一 条 指令 DR) 完成 ‘并 不 依赖 于 r0 的 值 》， 即 会 先 执行 STR 


ka 
em 


ARMAS as, LUUIARM926EJ-SZ S 
别 出 下 一 条 指令 〈STR ) HE ES 


指令 ， 而 不 是 等 待 LDR 指 令 完 成 。 


E 
E 


PRE BARAT > RESEPCPUBESRLHGTAT. {Eee ELTA T E EY RE AV xe P n] JU 
的 ， 因 为 里 个 CPU 在 碰 到 依赖 点 (后 面 的 指令 依赖 于 前 面 指令 的 执行 结果 〉 的 时 候 会 等 待 ， 所 以 程序 员 可 
能 感 澳 不 到 这 个 乱 序 过 程 。 但 是 这 个 依赖 点 等 待 的 过 程 ， 在 SMP 处 理 左 里 面 对 于 其 他 核 是 不 可 见 的 。 比 如 


若 在 CPU0 上 执行 : 


while (f == 0); 
prar X7 


CPUI 上 执行 : 


ll 
=e A 
RI NO 

“Ne 


Fh X 


EAI AS BEALI IA 79CPUO. EH Hx 4E SE 3-42, PNZJCPUI EBD" E-1" 4 PETE “x=42” Ja Bl, SAAT IN 
仍然 可 能 先 于 “x=42” 完 成 ， 所 以 这 个 时 候 CPU0 上 打印 的 x 不 一 定 束 是 42。 
处 理 占 为 了 解决 多 核 则 一 个 核 的 内 存 行为 对 为 外 一 个 核 可 见 的 问题 ， 引 入 了 一 些 内 存 屏 障 的 指 仿 。 喜 
如 ，ARM 人 处 理 右 的 屏障 指令 包括 : 
DMB 《数据 内 存 屏 障 ) : 在 DMB 之 后 的 显 式 内 存 访问 执行 前 ， 保 证 所 有 在 DMB 指 令 之 前 的 内 存 访问 
Ms 


alt 


DSB 数据 同步 屏障 ) : 等 每 所 有 在 DSB 指 令 之 前 的 指令 完成 (位 于 此 指令 前 的 所 有 显 式 内 存 访 问 均 
完成 ， 位 于 此 指令 前 的 所 有 绥 存 、 跳 转 了 预测 和 TLB 维 护 操作 全 部 完成 ); 


ISB KS E ERR) : Flush 流 水 线 ， 使 得 所 有 JISB 之 后 执行 的 指令 都 是 从 绥 存 或 内 存 中 获得 的 。 


Linux 内 核 的 目 放 锁 、 互 斥 体 等 互 斥 逻辑 ， 需 要 用 到 上 述 指令 : FERRIS, VAR BETES; 在 
解锁 时 ， 也 需要 调用 屏 隐 指令。 代码 清单 7.1 的 汇编 代码 摘 绘 了 一 个 简单 的 互 斥 逻辑 ， 留 意 其 中 的 第 14 行 
和 22 行 。 关 于 ldrex 和 strex 指 令 的 作用 ， 会 在 7.3 贡 评述 。 


代码 清单 7.1 基于 内 存 屏障 指令 的 互 斥 逻辑 


]LOCKED EQU 1 
2UNLOCKED EQU 0 
3lock mutex 














4 ; 互 斥 量 是 否 锁定 ? 
5 LDREX rl, [r0] ” ”检查 是 否 锁定 
6 CMP rl, #LOCKED ; AI" Locked" eK 
7 WFEEQ P 互 斥 量 已 经 锁定 ， 进 入 休 眼 
8 BEQ lock mutex ” 被 唤醒 ， 重 新 检查 互 斥 量 是 否 锁定 
9 ; 尝试 锁定 互 斥 量 
TD MOV rl, #LOCKED 
11 STREX £2. rl, [eo] ; SAE 
12 CMP r2, #0x0 ; 检查 STR 指令 是 否 完 成 
13 BNE lock mutex E DEM ud 
14 DMB PO 进入 被 保护 的 资源 前 需要 隔离 ， 保 证 互 斥 量 已 经 被 更 新 
15 BX lr 
16 
l7unlock mutex 
18 DMB ” 保证 资源 的 访问 已 经 结束 
19 MOV rl, #UNLOCKED ; ee MS "unlocked" 
20 STR. rl, DEO] 
2l 
22 DSB ; 保证 在 CPU 唤醒 前 完成 互 斥 量 状态 更 新 
2 SEV ” 像 其 他 CPU 发 送 事件 ， 唤 醒 任 何等 待 事件 的 CPU 
24 
295 BX lr 


前 面 提 到 每 个 CPU 都 是 乱 序 执行 ， 但 是 单个 CPU 在 碰 到 依赖 点 的 时 候 会 等 待 ， 所 以 执行 乱 序 对 单 核 不 
一 定 可 见 。 但 是 ， 当 程序 在 访问 外 设 的 寄存 器 时 ， 这 些 寄存 器 的 访问 顺序 在 CPU 的 逻辑 上 构 不 成 依赖 关 
系 ， 但 是 从 外 设 的 逻辑 角度 来 讲 ， 可 能 需要 固定 的 寄存 器 读 写 顺序 ， 这 个 时 候 ， 也 需要 使 用 CPU 的 内 存 屏 


障 指 令 。 内 核 文 档 Documentation/memory-barriers.txt 和 Documentation/io ordering.txt 对 此 进行 了 摘 述 


在 Linux 内 核 中 ， 定 义 了 旋 写 屏障 mb〈() 、 旋 屏障 rmb OO) 、 写 屏障 wmb ©) 、 以 及 作用 于 寄存 闫 该 
写 的 iormb ©) ~  iowmb O) 这 样 的 屏障 API。 旋 写 寄 存 右 的 readl] relaxed () 和 readl €) 、 
writel relaxed () 和 writel ©) API 的 区 别 惑 体现 在 有 无 屏障 方面 。 


#define readb(c) ({ u8 | v = readb relaxed(c);  iormb(); v; F) 
#define readw(c) ({ ul6 v = readw relaxed(c); | iormb(); v; }) 
#define readl (c) ({ u32 v = readl relaxed(c);  iormb(); v; )) 
#define writeb(v,c) (1 iowmb(); writeb relaxed(v,c); }) 
#define writew(v,c) (( | iowmb(); writew relaxed(v,c); j) 
#define writel(v,c) ( { 1owmb(); writel relaxed(v,c); }) 


比如 我 们 通过 writel relaxed O 写 完 DMA 的 开始 地 址 、 结 束 地 址 、 大 小 之 后 ， 我 们 一 定 要 调用 
writel C) 来 局 动 DMA。 


writel relaxed(DMA SRC REG, 


SEC addrz); 


writel relaxed DMA DST REG, dst addr); 


writel relaxed(DMA SIZE REG, 
1); 


writel 


(DMA ENABLE, 


Size); 


7.3 ADT BET 


TE CPU YÈ Fi] P 3E 4. 6 AS B] — Tr [6] EP TIU A AIT 135 oe CE E ANM FD. ZH BE iic S EE] AT, Ae CE DR] 
编程 中 不 值得 推 荐 ， 张 动 通 利 需要 车 夸 路 平台 特点 而 不 假定 目 己 在 单 核 上 运行 。CPU 一 般 都 具备 屏 贡 中 断 
和 打开 中 断 的 功能 ， 这 项 功能 可 以 你 证 正在 执行 的 内 核 执 行路 径 不 个 中 断 处 理 程序 所 抢占 ， 防 止 条 些 苋 态 
条 件 有 的 友 生 。 具 体 而 言 ， 中 靳 屏蔽 将 使 得 中 靳 与 进程 之 间 的 并 友人 不 于 友 生 ， 而 且 ， 由 于 Linux 内 核 的 进程 
调度 等 操作 部 依赖 中 靳 来 实现 ， 内 核 抢 占 进 程 之 间 的 并 有 友 也 得 以 避 倪 了 。 


HE Ir BE Wc E f FH 23 3 7J : 


local irq disable() /* 屏蔽 中 断 */ 
critical section /* 临界 区 */ 


local irq enable() /* gr / 


AE ES] SCIL JR BR XE CPUS Ep Ang VA, BLU. OXPTARMAEZEZsTU E) FEJE ASKE E BE 
ARM CPSR 的 I 位 : 


statie Inline void arch Local Tg disable(vord) 


{ 
asm volatile( 
7 cperd 1 G arch local irg disable" 


: "memory", "cc"); 
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local irq disable €) #lllocal_irq enable O 都 只 能 葵 止 和 使 能 本 CPU 内 的 中 断 ， 因 此 ， 并 不 能 解雇 
SMP 多 CPU 引 发 的 苋 态 。 因 此 ， 单 独 使 用 中 靳 屏蔽 通 第 不 是 一 种 值得 推荐 的 如 免 苋 态 的 方法 〈 换 句 话 说 ， 
驱动 中 使 用 local irq disable/enable O 通常 意味 着 一 个 bug) ， 它 适合 与 下 文 将 要 介绍 的 自 旋 锁 联合 使 
H- 


与 local irq disable () 不 同 的 是 ，local irq save (flags) 除了 进行 葵 止 中 断 的 操作 以 外 ， 还 保存 目前 
CPU 的 中 断 位 信息 ，local irq restore (flags) 进行 的 是 与 Jocal irq save (flags) 相反 的 操作 。 对 于 ARM 处 
硕 而 言 ， 其 实 束 是 剑 存 和 恢复 CPSR 。 


如 果 只 是 想 禁 止 中 断 的 底 半 部 ， 应 使 用 local bh disable () ， 使 能 被 local bh disable © 禁止 的 底 半 
部 应 该 调用 local bh enable () 。 


7.4 ”原子 操作 


原子 操作 可 以 保证 对 一 个 整 型 数据 的 修改 是 排他 性 的 。Linux 内 核 提 供 了 一 系列 函数 来 实现 内 核 中 的 
原子 操作 ， 这 些 函 数 又 分 为 两 类 ， 分 别针 对 位 和 整 型 变量 进行 原子 操作 。 位 和 整 型 变量 的 原子 操作 都 依赖 
于 底层 CPU 的 原子 操作 ， 因 此 所 有 这 些 函 数 都 与 CPU 架构 密切 相关 。 对 于 ARM 处 理 器 而 言 ， 底 层 使 用 
LDREX 和 STREX 指 令 ， 比 如 atomic inc O 撒 层 的 实现 会 调用 到 atomic add O ， 其 代码 如 下 : 


Re 
{ 
unsigned long tmp; 
ine resulti 
prefetchw(&v->counter) ; 
asm volatile ("@ atomic add\n" 
"s ldrex eD. Teal wn" 


add $0, $0, %4\n" 

strex Sl. w0. [eo], wi" 

teq $1, #0\n" 

bne ] 5" 

: "—&r" (result), "-&r" (tmp), "-*Qo" (v-»counter) 


; "EU ($v—-ocounter);, "Lr" 1i) 
"eoo E 


ldrex 指 令 跟 strex 配 对 使 用 ， 可 以 让 总 线 监控 ldrex 到 strex 之 间 有 无 其 他 的 实体 存 取 该 地 址 ， 如 果 有 并 发 
的 访问 ， 执 行 strex 指 令 时 ， 第 一 个 寄存 器 的 值 被 设置 为 ] (Non-Exclusive Access) 并 且 存 储 的 行为 也 不 成 
Ij; 如 果 没 有 并 发 的 存 取 ，strex 在 第 一 个 寄存 器 里 设置 0 (Exclusive Access) 并 且 存 储 的 行为 也 是 成 功 
的 。 本 例 中 ， 如 果 两 个 并 发 实体 同时 调用 ldrex+strex， 如 图 7.6 所 示 ， 在 T3 时 间 点 上 ，CPU0 的 strex 会 执行 
失败 ， 在 T4 时 间 点 上 CPU1 的 strex 会 执行 成 功 。 所 以 CPU0 和 CPU1 之 间 只 有 CPU1 执 行 成 功 了 ， 执 行 strex 失 
败 的 CPUO 的 “teq%1，#0” 判 断 语 句 不 会 成 立 ， 于 是 失败 的 CPU0 通 过 “bne 1b” 再 次 进入 ldrex。1drex 和 和 strex 的 
这 一 过 程 不 仅 适 用 于 多 核 之 间 的 并 发 ， 也 适用 于 同一 个 核 内 部 并 发 的 情况 。 


CPUO 





Tl Idrex 


T3 





T4 


87.6 ”1ldrex 和 和 strex 指 令 


7.4.] ” 整 型 原子 操作 
1 .设置 原子 变量 的 值 


vöid atonio set(atonic © 9v, int il; /* 设置 原子 变量 的 值 为 */ 
atomic t v = ATOMIC INIT(0); /* 定义 原子 变量 V 并 初始 化 为 0 * / 


2.3X BUE FAS Se EHE 


atomic read(atomic t *v); /* 返回 原子 变量 的 值 x / 


3. 原 子 变 量 加 / 减 


void atomic add(int i, atomic t *v); /* 原子 变量 增加 i */ 
void atomic sub(int i, atomic t *v); /* 原子 变量 减少 i */ 


4. 原 子 变 量 目 增 / 目 减 


void atomic inc(atomic t *v); /* 原子 变量 增加 工 */ 
void atomic dec(atomic t *v); /* 原子 变量 减少 ] */ 


5. 操 作 并 测试 


Lt: ATOMIC nc and resc(atomrc- €t ”> 
ine atomic dec and crest (atomic © *v)j 
Int, atomic Sub and Test (nt 2, &aLtomic Lt "vr 


上 述 操 作对 原子 变量 执行 自 增 、 目 减 和 减 操 作 后 (注意 没有 加 ) ， 测 试 其 是 否 为 0， 为 0 返回 true， 人 否 
由 返回 false。 


6. 操 作 并 人 返回 


int atomic add return(int 1, atomic t *v); 
int atonio SUD T,eturn (int 1; atomic t 7y); 
Int. AOMC 10C returni(atoumuo L 7w); 
工作 atonic deo neturnidtolrc ”> ) 7 


上 述 操作 对 原子 变量 进行 加 / 减 和 目 增 / 目 减 操作 ， 并 返回 新 的 值 。 


7.4.2 ”位 原子 操作 
1. EV. 
人 
上 述 操作 设置 addr 地 址 的 第 nr 位 ， 所 谓 设置 位 即 是 将 位 写 为 1。 
2. 清 除 位 
void clear bit(nr, void *addr); 
上 述 操作 清除 addr 地 址 的 第 nr 位 ， 所 谓 清除 位 即 是 将 位 写 为 0。 
3. 改 变 位 
oe a 
上 述 操 作对 addr 地 址 的 第 nr 位 进行 反 置 。 
4 Ml siz 
test bit(nr, void *addr) ; 
上 述 操作 返回 addr 地 址 的 第 nr 位 。 
5. 测 试 并 操作 位 


ie Lest. and sev. Dirnt, void, addr); 
ime, test dand clear bit (nr, Void “addr)7 
int test and change biti, void addr); 


上 述 test and xxx bit (nr, void*addr) 操作 等 同 于 执行 test_bit (nr, void*addr) 后 再 执行 


xxx bit (nr, void*addr) 。 
代码 清单 7.2 给 出 了 原子 变量 的 使 用 例子 ， 它 使 得 设备 最 多 只 能 被 一 个 进程 打开 。 
代码 清单 7.2 ”使 用 原子 变量 使 设备 只 能 航 一 个 进程 打开 


lstatio atomic t xxx available = ATOMIC INIT(1); /* EXE TSE*/ 
2 


Statlie int xxx opemistruct anode “inode, struct. tile *Iilp) 
4{ 

2 E 

6 if (latomic dec and test(&xxx available)) ( 

7 atomic inc(&xxx available); 

8 return - EBUSY; E EE 


2 ] 
10 
I1. return Ü; / gu */ 
123 
I> 
l4SLdtlio int xxx release (Struct. inode “inode, struct file *filp) 
1:94 
16 atomic inc(&xxx available); /* Ree */ 
LT mercury U; 
18] 
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AIS kts — HEB, CEXCPU EITA TS 6341 — P UT TRTE, VATRTEWW TAE UC EL CTest-And- 
Set) ASA. HT TE, Hr EZERRE TEL BU AT 8 764 n] B VJ IE] 3277 AI FEE 
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程序 将 在 一 个 小 的 循环 凡 重 复 这 个 “ 测 弃 并 设 征 ”操作 ， 即 进行 所 谓 的 “ 目 旋 ”， 通 俗 地 说 融和 是 "在原 地 打 
转 ”， 如 图 7.7 所 示 。 妆 目 旋 锁 的 持 有 痢 通 过 乍 前 该 变量 释放 这 个 目 诈 锁 后 ， 作 个 等 行 的 “测试 开设 普 ”操作 
器 其 调用 者 报告 锁 已 释放 。 

理解 目 旋 锁 了 最 简单 的 方法 是 把 它 作 为 一 个 变量 看 待 ， 该 变量 把 一 个 临 弄 区 标记 为 "我 当前 在 运行 ， 请 
和 等 一 会 "或 者 标记 为 “我 当前 个 在 运行 ， 可 以 被 使 用 *”。 如 果 A 执 行 里 元 自 先进 入 例 程 ， 它 将 持 有 目 旋 锁 ; 
当 B 执 行 早 元 试图 进入 同一 个 例 程 时 ， 将 获知 目 讶 锁 已 被 挂 有 ， 需 守 到 A 执行 里 元 释放 后 才能 进入 。 





图 7.7 BE 


在 ARM 体 系 结构 下 ， 目 旋 锁 的 实现 伴 用 了 ldrex 指 令 、strex 指 令 、ARM 处 理 噩 内 存 屏障 指令 dmb 和 
dsb、wfe 指 令 和 sev 指 令 ， 这 类 似 于 代码 清单 7.1 的 逻辑 。 可 以 说 既 要 你 证 排他 性 ， 也 要 处 理 好 内 和 存 屏 障 。 


Linux 中 与 目 旗 锁 相关 的 操作 主要 有 以 下 4 种 。 


1 .定义 目 旋 锁 


spunlock t lock; 


2.4] 35845 E ye eh 


Spin lock snaci lock) 


VAR Sew. BIEgock: 


3.3R S EJ XE 9 


spin lock(lock) 


ZH T ak43 Be illock, SRF IAI, NC ER, T. GREP BUE, BPE 
谋 锁 的 你 持 痢 释放 。 


spin trylock(lock) 


宏 答 试 获得 目 旋 锁 lock， 如 果 能 立即 获得 锁 ， 它 获得 锁 并 返回 true， 人 否则 立即 返回 false， 实 际 上 不 
有 再“ 在原 地 打转 ”。 


4. 释 放 目 旋 锁 
Spin unlock(lock) 
该 宏 释 放 自 旋 锁 lock， 它 与 spin trylock 或 spin lock 配 对 使 用 。 


目 旋 锁 一 般 这 样 航 使 用 : 





/* 定义 一 个 自 旋 锁 * / 
Spinlock € Lock; 
spin lock init (&lock) ; 


spin lock (&lock) ; /* 获取 自 旋 锁 ， 保 护 临 界 区 */ 
"E X*/ 
spin unlock (&lock) >  /* f9k*/ 


目 旋 锁 主 要 针对 SMP 或 羊 CPU 但 内 核 可 抢占 的 情况 ， 对 于 和 单 CPU 和 和 内核 不 文 持 抢 所 的 系统 ， 目 旋 锁 退 
化 为 空 操 作 。 在 单 CPU 和 和 内核 可 抢 喇 的 系统 中 ， 目 旋 锁 持 有 期 间 中 内 核 的 抢占 将 被 荣 止 。 由 于 内 核 可 抢 白 
的 单 CPU 系统 的 行为 实际 上 很 类 似 于 SMP 系 统 ， 因 此 ， 在 这 样 的 羊 CPU 系 统 中 使 用 目 旋 锁 仍 十 分 必要 
外 ， 在 多 核 SMP 的 情况 下 ， 任 何 一 个 核 拿 到 了 目 旋 锁 ， 该 核 上 的 抢占 调度 也 暂时 禁止 了 ， 但 十 没 有 蔡 止 为 
外 一 个 核 的 抢占 调度 。 


尽管 用 了 自 旋 锁 可 以 保证 临界 区 不 受 别 的 CPU 和 本 CPU 内 的 抢占 进程 打扰 ， 但 是 得 到 锁 的 代码 路 径 在 
执行 临界 区 的 时 候 ， 还 可 能 受到 中 断 和 底 半 部 (BH， 稍 后 的 章节 会 介绍 ) 的 影响 。 为 了 防止 这 种 影响 ， 
就 需要 用 到 自 旋 锁 的 衍生 。spin_ lock O /spin unlock O 是 自 旋 锁 机 制 的 基础 ， 它 们 和 关中 断 
local irq disable €) /Ħ F Wrlocal irq enable O 、 关 底 半 部 local bh disable O / 开 底 半 部 
local bh enable () 、 关 中 断 并 保存 状态 字 local irq save O / 开 中 断 并 恢复 状态 字 local irq restore () Zi 
合 就 形成 了 整套 自 旋 锁 机 制 ， 关 系 如 下 : 

ne 
spin lock irqsave() - spin lock() + local irq save() 


spin unlock xrqrestore()- = Spin unlock() + local Irq restore () 
Spin Look bhi) = Spin LoOk() + Local. Dh -disabie () 


spin unlock bh() = spin unlock() + local bh enable(t) 


spin lock irq () ~ spin lock irqsave ©) ~ spin lock bh O MURAS 73 EJ Je ex EJ 88 H] S E 
带 ” 以 避免 突如其来 的 中 断 驶 入 对 系统 造成 的 伤害 。 


在 多 核 编程 的 时 候 ， 如 果 进 程 和 中 断 可 能 访问 同一 片 临界 资源 ， 我 们 一 般 需 要 在 进程 上 下 文中 调用 
spin lock irqsave (2 /spin unlock irqrestore () ， 在 中 断 上 下 文中 调用 spin lock () /spin unlock €) ， 如 
图 7.8 所 示 。 这 样 ， 在 CPU0 上 ， 无 论 是 进程 上 下 文 ， 还 是 中 断 上 下 文 获得 了 上 自 旋 锁 ， 此 后 ， 如 采 CPU1 无 
论 是 进程 上 下 文 ， 还 是 中 断 上 下 文 ， 想 获得 同一 自 旋 锁 ， 都 必须 忙 等 待 ， 这 避免 一 切 核 间 并 发 的 可 能 性 。 
同时 ， 由 于 每 个 核 的 进程 上 下 文 持 有 锁 的 时 候 用 的 是 spin_ lock irqsave O ， 所 以 该 核 上 的 中 断 是 不 可 能 
进入 的 ， 这 避免 了 核 内 并 发 的 可 能 性 。 


驱 动工 程 师 应 齐 导 使 用 目 旋 锁 ， 而 且 在 使 用 中 还 要 特别 注意 如 下 几 个 问题 。 


1) 自 旋 锁 实 际 上 是 忙 等 锁 ， 当 锁 不 可 用 时 ，CPU 一 直 循环 执行 “测试 并 设置 ?该 锁 直 到 可 用 而 取得 该 
锁 ，CPU 在 等 竺 目 旋 锁 时 不 做 任何 有 用 的 工作 ， 仅 仅 是 等 待 。 因 此 ， 只 有 在 占用 锁 的 时 间 极 短 的 情况 下 ， 
使 用 目 旋 锁 才 是 合理 的 。 当 临 蹇 区 很 大 ， 或 有 共 圣 设备 的 时 候 ， 需 要 较 长 时 间 占 用 锁 ， 使 用 目 旋 锁 会 降低 
系统 的 性 能 。 


2) 目 旋 锁 可 能 导致 系统 死 锁 。 引 发 这 个 问题 最 稼 见 的 情况 是 递归 使 用 一 个 目 放 锁 ， 即 如 果 一 个 已 经 
拥有 某 个 目 旋 锁 的 CPU 想 第 二 次 获得 这 个 目 放 锁 ， 则 该 CPU 将 死 锁 。 





spin unlock spin unlock 


图 7.8 ”上 自 旋 锁 的 使 用 实例 


3) 在 目 旋 锁 锁 定期 间 不 能 调用 可 能 引起 进程 调度 的 函数 。 如 果 进 程 获 得 目 旋 锁 之 后 再 阻 瞪 ， 如 调用 
PK 


copy from user () ~ copy to user () , kmalloc () 和 msleep O SeeS2, Ay ge SICA TRE BA ivi o 


4) TESTE OU FATE, 2 ZUNE UOGHJCPUXEZ TAB. SRO ASRS “Fae. LG 
如 ， 在 单 CPU 的 情况 下 ， 帮 中财 和 进程 可 能 访问 同一 临界 区 ， 进 程 里 调用 Spin lock irqsave O 是 安全 
的 ， 在 中 断 里 其 实 不 调用 Spin lock O 也 没有 问题 ， 因 为 spin lock irqsave © 可 以 保证 这 个 CPU 的 中 断 


服务 程序 不 可 能 执行 。 但 是 ， 香 CPU 变 成 多 核 ，spin lock irqsave ©) AREF CISA Bl, PR 
万 外 一 个 核 吏 可 能 造成 并 及 问 题 。 因 此 ， 无 论 如 何 ， 我 们 在 中 上 断 服 务 程序 里 也 应 该 调用 spin lock O 。 


代码 清单 7.3 给 出 了 自 旋 锁 的 使 用 例子 ， 它 被 用 于 实现 使 得 设备 只 能 被 最 多 1 个 进程 打开 ， 功 能 和 代码 
清单 与 7.2 类 似 。 


代 人 担 清 单 7.3 ”使 用 目 旋 锁 使 设备 只 能 被 一 个 进程 打开 


l Int xxx Count = 07/7 FNRI 

2 

3 Stalic ING xxx ODOnisLbPuct anode "inode, Suruct file "E1LL5) 
4 | 

E — 

6 spinlock(&xxx Lock); 

7 if (xxx count) {/* BZiT*/ 

8 spin unlock (&xxx lock); 

9 return  -EBUSY; 
10 } 
alk xxx countt+;/* 增加 使 用 计数 */ 
La spin unlock(&xxx lock); 
LS Pu 
14 return 0;/* jj */ 
ile 
16 

J Stace ING Xx Teler S(s Inc 10009 “anode, Strucc tile ~ILID) 
18 { 

1:9 


20 spinlock(&xxx lock); 
21 xxx count--;/* 减少 使 用 计数 */ 


22 spin unlock(&xxx lock); 
Z9 
24 return 0; 


7.5.2 tS Ayes 
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题 的 ， 目 旋 锁 的 衍生 锁 读 与 目 旋 锁 CGrwlock) 可 允许 谈 的 并 上 友 。 读 与 目 旋 锁 是 一 种 比 目 旋 锁 粒度 更 小 的 锁 
机 制 ， 它 剑 留 了 “ 目 旋 ”的 概念 ， 但 古 在 号 操作 方面 ， 只 能 最 多 有 1 个 写 进 程 ， 在 读 操 作 方 和 面 ， 同 时 可 以 有 有 

个 讯 执行 音 元。 当然 ， 读 和 写 也 不 能 同时 进行 。 


谈 写 目 旋 锁 涉及 的 操作 如 下 。 
LE MP SACI H hie at 


rwlock t my rwlock; 
rwlock init(&my rwlock); /* 动态 初始 化 */ 


2. 读 锁定 


void read lock(rwlock t *lock); 

void read lock irqsave(rwlock t *lock, unsigned long flags); 
void read lock irq(rwlock t *lock); 

void read lock bh(rwlock t *lock); 


vöid read umlock(rwlock E *lock); 

vöid read unlock Lrgrestore(rw.ock c *lock, unsigned long flags); 
void read Unlock arqirwlock © “Lock); 

void read unlock bh(rwlock t *lock); 


TEXT SE ot PRET CZ, ATG Val A SE PBB, FE DO Ja NER EE PAL PR Bo 


read lock irqsave () ~ read lock irq (2 和 read lock bh (©) 也 分 别 是 read lock O 分 别 与 
local irq save (Ò ~ local irq disable (Ò 和 local bh disable (OO 的 组 合 ， 读 解锁 函数 
read unlock irqrestore () ~ read unlock irq () . read unlock bh ©) 的 情况 与 此 类 似 。 


4. 写 锁定 


VOI rite Lock (rwlock T De 

void write lock irqsave(rwlock t *lock, unsigned long flags); 
VOLO write LOOK arqi{(rwilock © *lock); 

void write lock bh(rwlock t *lock); 

int write trylock(rwlock = Lock); 


void write unlock(rwlock t *lock); 
vold: write unlock rrgrestore(rwlock © *Look, unsigned long flags); 


void write unlock irq(rwlock t *lock); 
void write unlock bh(rwlock t *lock); 


write lock irqsave () ~ write lock irq © ~ write lock bh O 分 别 是 write lock O 与 
local irq save () ~ local irq disable (Ò local bh disable © 的 组 合 ， 写 解锁 函数 


write unlock irgrestore () ~ write unlock irq () ~ write unlock bh ©) 的 情况 与 此 类 似 。 


在 对 共 圣 资源 进行 写 之 前 ， 应 该 先 调用 写 锁定 函数 ， 完 成 之 后 应 调用 与 解锁 函数 。 和 spin trylock © 
一 样 ，write trylock O 也 只 是 笑 试 获取 读 写 目 旋 锁 ， 不 官 成 功 失 败 ， 都 会 立即 返 回 。 


读 写 目 谍 锁 一 般 这 样 补 使 用 : 


rwlock t lock; /* gXrwlock */ 
rwlock init(&lock); /* 初始 化 rwlock */ 
/* 读 时 获取 锁 */ 

read lock(&lock}); 

TE /* 临界 资源 */ 
read unlock(&lock); 
/* 写 时 获取 锁 */ 

write lock arqsave (tlock, tlags); 

TA /* 临界 资源 */ 
Write UnLock rrgresctore(S&lock, tlags); 


7.$.3 ”顺序 锁 


UF Bt Cseglock) 是 对 讯号 锁 的 一 种 优化 ， 厂 使 用 顺序 锁 ， 读 执行 蛙 元 个 会 被 写 执 行 单元 阻 星 ， 也 束 
征 说 ， 谈 执行 单元 在 与 执行 单元 对 彼 顺 序 锁 傈 护 的 共 孚 资源 进行 号 操作 时 仍然 可 以 继续 该 ， 而 不 作 等 竺 与 
换行 单元 完成 与 操作 ， 与 执行 单元 也 不 需要 等 街 所 有 读 执 行 单 元 完成 该 操作 才 去 进行 与 操作 。 但 是 ， 与 执 
行 单 元 与 与 执行 单元 之 间 仍 然 是 互 厅 的 ， 即 如 末 有 与 执行 单元 在 进行 与 操作 ， 其 他 与 执行 单元 必须 目 旗 在 
那里 ， 百 到 与 执行 单元 释放 了 顺序 锁 。 


对 于 顺序 锁 而 言 ， 尽 官 读 与 之 间 不 互相 排斥 ， 但 是 如 打 读 执行 单元 在 谈 操 作 期 间 ， 与 执行 单元 已 经 友 
生 了 与 操作 ， 那 么 ， 谈 执行 单元 必须 重新 读 取 数据 ， 以 便 确 你 得 到 的 数据 是 完整 的 。 所 以 ， 在 这 种 情况 
Po imh peN R EE E R EERI KIERA REE BA AI BE < 

fELinux NP, SAATE AK IIT REA F o 


1. 获 得 顺序 锁 


vold write seglockisecglook Lt 591); 
Int Write tryseqlock(seqlock t 7al); 
Weite seqlock irgsave (lock, flags) 
write seqlock. 179g (LOGk,) 

write seqlock bh(lock) 


其 中 ， 


write seqlock irqsave() = loal irq save() + write seqlock() 
Write seqlock irq() = local Tf0 disable() + write seglockt) 
write seglock bh() = Local bh drsSablet) + write seglöck() 
Tx d NT 
2. 释 放 顺 序 锁 


VOLO. Write sequnlock(seqlock t *5157 
write sequnlock irqrestore(lock, flags) 
write sequnlock irq(lock) 

write sequnlock bh(lock) 


cH, 


N 


write sequnlock irgrestore() = write sequnlock() + local irq restore() 
write sequnlock irq() = write sequnlock() + local irq enable() 
write sequnlock bh() = write sequnlock() + local bh enable(t) 


写 执 行 单元 使 用 顺序 锁 的 使 式 如 下 : 


write seqlock(&seqlock a); 
人 人/ 
WEITE segunlooxtesseqlock a); 


因此 ， 对 写 执行 单元 而 言 ， 它 的 使 用 与 自 旋 锁 相 同 。 
读 执 行 单元 涉及 的 顺序 锁 操 作 如 下 。 
1. 谈 开始 


unsigned read segbegin(const seglock t *&L)3 
read seqbegin irqsave(lock, flags) 


读 执行 单元 在 对 被 顺序 锁 s1 保 护 的 共享 资源 进行 访问 前 需要 调用 该 函数 ， 该 函数 返回 顺序 锁 s1 的 当前 


Ir. FEA, 


read seqbegin irqsave() = local irq save() + read seqbegin () 


2. 重 读 


int read Segretry(const SeqLook © “sl, unblrgned Xv); 
read Seqretry Lfqrestore(looE, v, LL395) 


TTA ER 7G TE Vj [8] FE IU Bis] RIP ERI ER E Us f 2e URL Hd VALER BORE, ERV HERI IE a Ste 
作 。 如 末 有 与 操作 ， 旋 执行 单元 吏 需 要 重新 进行 谈 操 作 。 其 中 ， 


read segretry irgrestore([) = xead seqretry(). + Local arg restore) 


读 执行 单元 使 用 顺序 锁 的 模式 如 下 ， 


CK 4 
seqnum = read seqbegin(&seqlock a); 
/* SERGE */ 


] while (read seqretry(éseqlock a, segnum)); 


7.$.4” 读 -复制 -更 新 


RCU (Read-Copy-Update， 读 -复制 -更 新 ) ， 它 是 基于 其 原理 命名 的 。RCU 并 不 是 新 的 锁 机 制 ， 早 在 
20 世 纪 80 年 代 束 有 了 这 种 机 制 ， 而 在 Linux 中 古 在 开 友 内 核 2.5.43 时 引入 该 技术 的 ， 并 正式 包含 在 2.6 内 核 
中 。 


Linux 社 区 关于 RCU 的 经 典 文 档 位 于 https://www.kernel.org/doc/ols/2001/read-copy.pdf，Linux 内 核 源 代码 
DocumentationRCU/ 也 包含 了 RCU 的 一 些 讲解 。 


不 同 于 自 旋 锁 ， 使 用 RCU 的 读 端 没有 锁 、 内 存 屏障 、 尿 子 指令 类 的 开销 ， 几 乎 可 以 认为 是 直接 读 
(只 是 简单 地 标明 读 开 始 和 读 结束 ) ， 而 RCU 的 写 执行 单元 在 访问 它 的 共享 资源 前 首先 复制 一 个 副本 ， 
然后 对 副本 进行 修改 ， 最 后 使 用 一 个 回调 机 制 在 适当 的 时 机 把 指向 原来 数据 的 指针 重新 指向 新 的 被 修改 的 
数据 ， 这 个 时 机 就 是 万 有 引 用 该 数据 的 CPU 都 退出 对 共享 数据 读 操作 的 时 候 。 等 竺 适当 时 机 的 这 一 时 期 称 
为 宽 限 期 (Grace Period) 。 


比如 ， 有 下 面 的 一 个 由 struct foo 结 构 体 组 成 的 链表 : 


| 
SLEUGE Lest head Wise; 
int as 
int d 

lnt x 


by 


(BUC REREA BS OBE RE PART B SANI Ra bo HIEMER ce AP Ey [HC Bi. SEAT EE 
HARA H JEM AIETE ATE Be RE BU, REPEATS $1 EL My IH] BERIT BUNT B Eo ZENE 
的 a、b 两 个 成 员 ， 完 成 后 解锁 。 而 RCU 的 思路 则 不 同 ， 它 耳 接 制造 一 个 新 的 记 挟 M， 把 N 的 内 容 复 制 给 
M， 之 后 人 在 M 上 修改 a、b， 并 用 M 来 代 佑 N 原 本 在 链表 的 位 置 。 之 后 进程 A 等 竺 在 链表 前 期 己 经 存在 的 所 
有 读 端 结束 后 《〈 即 宽 限 期 ， 通 过 下 文 说 的 synchronize reu O API 完 成 ) ， 再 释放 原来 的 N。 用 代码 来 描述 
这 个 逻辑 束 古 : 

a 


int. b; 
inr cs 


i; 
LIST HEAD (head); 


t a e me V 
p = search (head, key); 
if (p == NULL) 4 


/* Take appropriate action, unlock, and return. */ 


) 
g = kmalloc (si 72605 (*p);, GEP _ KERNEL); 
* 


quce = 37 

lrg replace 2Culep=-1li1st, &gelt:9t)j 
synchronize rcut); 

kfree (p); 


RCU 可 以 看 作 读 写 锁 的 高 性 能 版 本 ， 相 比 读 写 锁 ，RCU 的 优点 在 于 既 允 许多 个 读 执行 单元 同时 访问 
被 保护 的 数据 ， 又 允许 多 个 读 执行 单元 和 多 个 与 执行 单元 同时 访问 被 保护 的 数据 。 但 是 ，RCU 不 能 蕉 代 
读 写 锁 ， 因 为 如 果 写 比较 多 时 ， 对 读 执行 单元 的 性 能 提高 不 能 弥补 写 执 行 单 元 同步 导致 的 损失 。 因 为 使 用 
RCU 时 ， 与 执行 单元 之 间 的 同步 开销 会 比较 大 ， 它 需要 延迟 数据 结构 的 释放 ， 复 制 被 修改 的 数据 结构 ， 
它 也 必须 使 用 茶 种 锁 机 制 来 同步 并 及 的 其 他 写 执行 单元 的 修改 操作 。 

Linux 中 提供 的 RCU 操 作 包 括 如 下 4 种 。 


1. BERE 


Pou redo 1ock.() 
fou read Lock- DH) 


2. 斌 解锁 


rcu read unlock() 
rcu read unlock bh() 


使 用 RCU 进 行 读 的 模式 如 下 : 


rou read... OCR 
. . . /* 读 临 界 区 * / 
fou read UnLock) 


3. 同 步 RCU 


Synchronize roul) 


ZPRIALHRCUS FAT uA, “EA EST oc, AA BUCPU. E PT HJ CES ETE (Ongoing) 
HUE Rui. SAITE ay DA aR et RB 2b BRE. synchronize rcu O FPA ia ES ER S 
(Subsequent)〉 读 临界 区 的 完成 ， 如 图 7.9 所 示 。 


CPUO CPUI CPU2 


rcu read lock() 


synchronize rcu()jJE A 


rcu read unlock() rcu read lock() 


synchronize rcu0 退 出 





rcu read unlock() 


图 7.9 synchronize rcu 
探测 所 有 的 rcu read lock ©) 被 rcu read unlock O £5 RARER BJavai& zi DLR | LE. 


4. 挂 接 回 调 


word Call. qouteLtruct: rcu nea Snead; 
VON CVT UnG O rut, pou dead So 


PEZ call rcu ©) 也 由 RCU 写 执行 单元 调用 ， 与 synchronize rcu O 不 同 的 是 ， 它 不 会 使 写 执行 单元 阻 
枚 ， 因 而 可 以 在 中 断 上 下 文 或 软 中 断 中 使 用 。 访 函数 把 函数 fbnc 挂 接 到 RCU 回 调 函 数 链 上 ， 然 后 立即 返 
回 。 挂 接 的 回调 函数 会 在 一 个 视 限 期 结束 〈 即 所 有 已 经 存在 的 RCU 谈 临界 区 完成 ) 后 被 执行 。 


ES 


给 RCU 保 护 的 指针 赋 一 个 新 的 值 。 
rou Uererereneeip) 


imf Hjreu dereference O 获取 一 个 RCU 保 护 的 指针 ， 之 后 既 可 以 安全 地 引用 它 〈 访 问 它 指 问 的 区 
域 ) 。 一 般 需 要 在 rcu read lock () /rcu read unlock () 保护 的 区 则 引用 这 个 指针 ， 例 如 : 


CU read: OCK (yy 
ie 
Ip" AGE eG bean aet oenUurres) 

DIIS FOr Gach eunurvite. Clirg pute mapli rdgly dmm) 


{ 
if (likely (e->type == KVM IRQ ROUTING MST) ) 
ret = kym set msg rnatomre(e, Kym); 
else 
ret = -EWOULDBLOCK; 
break; 


roD nego Unlock i? 
上 述 代码 取 目 Vvirt/kvmyirqg comm.cH]kvm set irq inatomic () PAA. 


reu access POLNCEr(P) 


ise vin 15 FArcu_access_pointer O 获取 一 个 RCU 剑 护 的 指针 ， 之 后 并 不 引用 它 。 这 种 情况 下 ， 我 们 只 天 
心 指 针 本 里 的 值 ， 而 不 天 心 指 针 指 问 的 内 容 。 比 如 我 们 可 以 使 用 该 API 来 判断 指针 是 寿 为 NULL。 


把 rcu_assign pointer () 和 rcu_ dereference () 结合 起 来 使 用 ， 写 端 分 配 一 个 新 的 struct foo F, W 
始 化 其 中 的 成 员 ， 之 后 把 该 结构 体 的 地 址 赋值 给 全 局 的 gp 指针 : 


Eee 
int a; 
int D? 
Pe Ce 
); 
Struct. foo "gp = NULE; 


YS de «en apo D 

p —kmalloc(srzeot('p), GFP KERNEL); 
pa s ay 

p=>bp = 2; 

p-2G = .3; 


rcu Jase POI Ller (Gp, p 


iim VJ VA) VA Fr DC ts 


rou xeado.roecm()s 
po eu uderererenceqgp)r 
if (p != NULL) { 
dO SOMe Luin: wich p= rar pepe POr 
j 


Bou Fead unmboockti 


在 上 述 代 码 中 ， 我 们 可 以 把 写 端 rcu assign pointer O 看 成 发 布 (Publish) 了 gp， 而 读 端 
rcu_dereference () 看 成 订阅 (Subscribe) 了 gp。 它 保证 读 问 可 以 看 到 recu assign pointer () 之 前 所 有 内 存 
被 设置 的 情况 〈 即 gp->a，gp->b，gp->c 等 于 1、2、3 对 于 读 端 可 见 ) 。 由 此 可 见 ， 与 RCU 相 关 的 原 语 已 经 
Py Bk T THOSE Zi VE BE Fist e P T£ BE B e 


对 于 链表 数据 结构 而 言 ，Linux 内 核 增 加 了 专门 的 RCU 你 护 的 链表 拘 作 API: 


Stacie anlane vod jase add Teucstruct. Js head: “new, Struc. Jase Need: *iead), 


该 函数 把 链表 元 素 new 插 入 RCU 保 护 的 链表 head 的 开头 。 


卫生 Re 人 ol 
SR 


APRA Flist add rcu ©) ， 它 将 把 新 的 链表 元 素 hnew 添 加 到 被 RCU 保 护 的 链表 的 末尾 。 


0 


该 图 数 从 RCU 你 护 的 链表 中 删除 指定 的 链 衣 元 系 entry。 


9 靖国 的 0 二 ee 有 本 ea 


它 使 用 新 的 链表 元 素 new 取 代 旧 的 链表 元 素 old。 


二 


该 宏 用 于 表 历 由 RCU 你 护 的 链表 head， 只 要 在 读 执 行 蛙 元 临界 区 使 用 该 孙 数 ， 它 就 可 以 安全 地 和 其 他 
RCU 保 护 的 链表 操作 冰 数 (如 list add rcu OO) ) 并 发 运行 。 


PER MI E mi d arp PRU P : 


SUDO DOO " 
SUcpUCUC last hesd IX; 
int a; 
Ine -D7 
Int- OF 
); 
Lider HBAD (head); 


| a ur Uu. 

p —'-kmalloc(slzeot(*p)s GEP KERNEL); 
p->a = 1; 

p.25 

p-> - 5; 


Dust add TOUS Lisl, hea 


链表 的 读 闹 代码 则 形 如 : 


ou reac. LoOCK()S 
LES. DOr Gach enun “rou (os eges 


} 


rou read UNLOCK) > 


WACAAN X RCURI 


Struct el 4 

Struct Just head Le 
long key; 

epanLook © MICEX; 

int data; 

6 /* Other data fields */ 
7); 

SDEFINE RWLOCK(listmutex); 
GLT BEAD (head); 


CH. A "Gor N FS 


TILST) 
do Some Enr- WIENED ay Oe Dr pes 


{ 


链表 中 点 进行 修改 以 及 讨 加 新 布点 的 动作 ， 下 面 我 们 看 一 下 RCU 傈 护 
的 链表 删除 节点 N 的 工作 。 瑟 姗 分 为 两 个 步骤 ， 第 1 步 是 从 链表 中 删除 N， 之 后 等 一 个 宽 限 期 结束 ， 贞 释 放 
N 的 内 存 。 下 面 的 代码 分 别 用 读 写 锁 和 RCU 两 种 不 同 的 方法 来 描述 这 一 过 程 : 


lint search(long key, int *result) 


21 

FOCE- eE sp? 

4 

o read LTockielirsumuutex); 

G rst Tor seach. entry (py. &yeacy 
7 if (p->key == key) { 

8 *resulc -= pdala; 

9 redd unlLoek(elistmubex); 
LO Dex. 
dI } 
d. 7 


15 read UnLoOR(slprstmuLex); 
14 return 0: 


1:5. 

lint delete(long key) 

24 

S OULUOC el p 

4 

o write Lockieltstmutex); 

Oper ror Cach entry (py Deas, 
7 if (p->key == key) { 

8 lust del (ep SL 

9 write unlock (els tmuvex); 
LO kfree (p); 
LI Detur 3 
12 } 
l> 3 
14 write unlock(&listmutex); 
lo “retire. D. 
16} 


lp) 


lp) 


Seri Ce eL | 


2 ‘steuce. Jus weed, kp; 

3 long key; 

4 spinlock t mutex; 

S ant data; 

o6 /* Other data fields */ 
Tq 


SDEFINE SPINLOCK(listmutex); 
9LIST HEAD (head); 

lint search(long key, int *result) 
Z4 

o^ GUruct «el Xp 


4 
3 PCU read JIOGRQ- 

6 dict Lor each entry routp, wbesd. Pp 4 
q 

8 


if (p->key == key) { 
*resült = p-> data; 
9 pou reari unbtoski 
10 return 1; 
I ) 
12. X 


lo- “CU. Tead dgnliocst 
14 return 0; 


I5. 
lint delete(long key) 
21 
”Put el *p7 
4 
T. spr Lock (elistmulex) 7 
Or suse On each-eHtrby (po; She opo 4 
7 if (p->key == key) { 
8 list del rcu(&p->lp); 
9 spin: unlock(selrsUumuatex); 
1O Synchronize rout; 
11 kires(p) 
L2 ESEUN Xy 
13 j 
14 ] 


19s pru unlocktslistmutex) 
L6 terur -07 
1 


7.6 {45 


信号 量 〈Semaphore) 征 操 作 系 统 中 最 奥 琢 的 用 于 同步 和 互 斥 的 手段 ， 信 筷 量 的 全 可 以 是 0、1 或 者 n。 
信 己 量 与 操作 系统 中 的 经 典 概 仿 PV 操 作对 应 。 


P (S): 将 信号 量 S 的 值 减 1， 即 S=S-1; 
如 果 S>0， 则 该 进程 继续 执行 ， 否 则 该 进程 置 为 等 枉 状态 ， 排 入 等 等 队列 。 
V (S): 中 将 信号 量 $ 的 值 加 1， 即 S$=S+1; 
g 如 及 S$>0， 唤 醒 队 列 中 等 竺 信号 量 的 进程 。 
Linux 中 与 信号 量 相 关 的 操作 主要 有 下 和 面 几 种 。 
LEXE FE 
下 列 代 码 定 义 名 称 为 gm 的 信号 量 : 
ER 
2. 初 始 化 信和 号 量 
人 
RANA ig. IPRA v :EsemB TH 7Jval. 
3 HAS 
Ne dane a S 


ZRA TIRA Esem, ERFAR, DIU RER TE PREH o 


Int down zntercuptible(struct semaphore: * sem); 


该 函数 功能 与 down 类 似 ， 不 同 之 处 为 ， 因 为 down() 进入 睡眠 状态 的 进程 不 能 被 信号 打 断 ， 但 因为 
down interruptible C) 进入 睡眠 状态 的 进程 能 被 信号 打 断 ， 信 和 号 也 会 导致 该 图 数 返 回 ， 这 时 候 图 数 的 返回 
信 非 0。 


int down trylock(struct semaphore * sem); 


FRAMED He Ss sem, WRIA, CHOIRS Aas EIRO, AM), REE. €E 
TESSUS A a ER, DA Tit EB SCP AEA 


在 使 用 down interruptible〈) REUE SIN, MRM T MX XE TEX. WINRJEO,. IDA RPR El- 
ERESTARTSYS, jl: 


if (down interruptible(&sem)) 
return  -ERESTARISYIS5; 


4. 释 放 信 号 量 


void up (struct semaphore * sem); 


RAEI Esem, PRESE. 


fEA— MAREN RFR fase ema, EMH ATS he. E EUH. AR 
有 得 到 信号 量 的 进程 才能 执行 临界 区 代码 。 但 和 是， 与 目 旋 锁 不 同 的 是 ， 当 效 取 不 到 信和 学 量 时 ， 进 程 不 会 原 
地 打转 而 是 进入 休 虐 等 每 状态 。 用 作 互 斥 时 ， 信 号 量 一 般 这 样 个 使 用 : 


进程 P1 进程 P2 tte 进程 Pn 
P(S) P Ls P(S) 
临界 区 临界 区 临界 区 
V (S); V (S); V (S); 


H Pt IT] Linux PY 4 (Hi a) El ee H mutex TE 7J ER FER, 16 S HE EL Fe AS FS THE TS HI o 


信号 量 也 可 以 用 于 同步 ， 一 个 进程 A 执 行 down《〈) 等 待 信号 量 ， 必 外 一 个 进程 B 执 行 up〈) FERE 
量 ， 这 样 进程 A 束 同步 地 等 行 了 进程 B。 其 过 程 类 似 : 


进程 P1 进程 P2 
代码 区 C1; P(S); 
V(S); 

代码 区 C2; 


此 外 ， 对 于 关心 具体 数值 的 生产 者 / 消 线 者 问题 ， 使 用 信和 坪 量 则 较为 合适 。 因 为 生产 者 / 消 响 者 问题 也 
征 一 种 同步 问题 。 


尺 害 信和 写 量 已 经 可 以 实现 互 太 的 功能 ， 但 十“ 正 守 ”的 mutex 在 Linux 内 核 中 还 是 真实 地 存在 看 。 
下 面 代码 定义 了 名 为 my _ mutex 的 互 斥 体 并 初始 化 它 : 


Struct mutex my mutex; 
mutex init(&my mutex); 


“B TED EY PY 7S ER ACH] RR A: 


VOLO Imübex Lock(Struce mutex *~lock) 7 
int mutex lock znterrüptible(struct mutex = Lock); 
int mutex UtryLock(struct mutex “lock); 


mutex lock (Ù) mutex lock interruptible © AVX #J#ldown ©) down trylock O 的 区 别 完全 一 
致 ， 表 者 引起 的 睡眠 不 能 和 被 信 吕 打 断 ， 而 后 者 可 以 。mutex trylock O Hi T zv fmutex,. I RAA Fl 
mutex 时 不 会 引起 进程 睡 虐 。 


下 列 函 效用 于 释放 互 斥 体 : 


VOLO are unLock(tstruct mutex “Lock? 


mutex 的 使 用 方法 和 信和 学 量 用 于 互 斥 的 场合 完全 一 伞 : 


x ÆXmutex */ 
x 初始 化 mutex */ 
* 获取 mutex */ 

* 临界 资源 * / 

x 释放 utex */ 


Struct mutex my mutex; 
mutex init(&my mutex); 
mutex lock(&my mutex); 


DSS NN Uu D 


mutex unlock(&my mutex); 


H JEDN E, Fe i eR HL Fe Ine] Ze ATE, TERE ERT, De ee Be? 选择 
E FS xs Mr AT X. BY TE J RU s IE Eo 


itis ME, AR AA es Y AERIS BREF, BSE OMT ae. TEAR RAS 
SEIE, AS Rub RUESTATEBURUSCT TE, m HRH o PA ie BUR ERE FEC 


HERRER, HIT 2 ERE ZA OUR AS, EAT EEA, BENAT EET E LÀ 
进程 的 里 份 ， 代 表 进 程 来 搜 和 村 资源 的 。 如 来 苋 争 失 败 ， 会 友 生 进程 上 下 文 切 换 ， 妆 前 进程 进入 睡 虑 状态 
CPU 将 运行 其 他 进程 。 符 于 进程 上 下 文 切换 的 开销 也 很 大 ， 因 此 ， 只 有 妆 进 程 占用 资源 时 间 较 长 时 ， 用 互 
奢 体 才 是 较 好 的 选择 。 


当 所 要 保护 的 临 守 区 芒 问 时 间 比 较 短 时 ， 用 目 旋 锁 是 非 音 方便 鸭 ， 因 为 它 可 下 省 上 下 文 切换 的 时 间 。 


但 征 CPU 得 不 到 目 旋 锁 会 在 那里 衬 欧 直到 其 他 执行 单元 解锁 为 止 ， 所 以 要 求 锁 不 能 在 临 守 区 里 长 时 间 仍 
留 ， 侣 则 会 降低 系统 的 效率 。 


由 此 ， 可 以 总 结 出 目 旋 锁 和 互 斥 体 选 用 的 3 项 原则 。 


1)〉 妆 锁 个 能 饭 獒 取 人 到 时 ， 使 用 互 太 体 的 开销 古 进程 上 下 文 切换 时 间 ， 使 用 目 旋 锁 的 开销 是 等 行 获取 
HIED (由 临界 区 执行 时 间 决 是)。 石 临 寞 区 比较 小 ， 宜 使 用 目 讶 贷 ， 厂 临 蹇 区 很 大 ， 应 使 用 互 斥 体 。 


2) 互 帮 体 所 你 护 的 临界 区 可 包含 可 能 引起 阻 暑 的 代码 ， 而 目 旋 锁 则 绝对 要 避免 用 来 保护 包含 这 样 代 
人 码 的 临界 区 。 因 为 阻 瑟 意味 看 要 进行 进程 的 切换 ， 如 果 进 程 锐 切换 出 去 后 ， 故 一 个 进程 企图 获取 本 目 旗 
Bil, MMR ACH 


3) ER VTE TP ERE EPC, TAC, SR RIP IR] ARS PER its EF BP Tee RAE, ME 
EL FR VSAM ELE SCA IH] RBEXETEH He. TX. WR ERE ES, JA pea mutex_trylock O 方式 
进行 ， 不 能 获取 就 立即 返回 以 避免 阻塞 。 


7.8 EKE 


Linux 提 供 了 完成 量 〈Completion， 关 于 这 个 名 词 ， 至 今 没 有 好 的 翻译 ， 
用 于 一 个 执行 日 元 等 生态 一 个 执行 单元 执行 完 条 事 。 
Linux 中 与 完成 量 相 关 的 操作 主要 有 以 下 4 种 。 


1 .定义 完成 


IT 


下 列 代 码 定 义 名 为 my completion] 56 Es: 


Struct. Completion. my completion; 
2. 初 始 化 完成 量 
下 列 代 人 码 初 始 化 或 者 重新 初始 化 my completion 这 


init completion(&my completion); 
reinit completion(&my completion) 


3. 等 待 完成 量 
下 列 函 数 用 于 等 竺 一 个 完成 星 被 唤醒 : 


VOoLld Walt, fOr Completion (Struce: Completion 7e) 


FB P3 ER BC T ETE E s 


void complete(struct completion *c); 
youd. complete ALLIS UCE completron ~C)? 


HI 


Cc 


者 只 唤醒 一 个 等 竺 的 执行 单元 ， 后 者 释放 所 有 等 竺 同一 完成 量 的 执行 单元 。 
完成 量 用 于 同步 的 流程 一 般 如 下 : 


进程 P1 进程 P2 
代码 区 C1; 
complete(&done); 


代码 区 C2; 


wait for completion(&done); 


笔 首 将 其 详 


个 完成 量 的 值 为 0《〈 即 没有 完成 的 状态 ) 


7.9 ”增加 并 发 控制 后 的 globalmem 的 设备 驱动 


在 globalmem O 的 读 写 函数 中 ， 由 于 要 调用 copy from user () 、copy to user (O 这 些 可 能 导致 阻 
ZEN PAL, IEA BECERRA ee, EA EE. 


BK CIEI 2J tae Se ce Pr HIS] EU EE .— BR AS SS FB Ee ee A, KE, Gags 
单 7.4 那 样 修改 globalmem dev WAH MX, FETE ea RZ athe Bim. OS 7S PT 


不 。 
代码 清单 7.4 ”增加 并 发 控制 后 的 globalmem 设 备 结构 体 


LStructc grobalmem dev 4 


2 struct cdev cdev; 

2 unsigned char mem[GLOBALMEM SIZE]; 
4 struct mutex mutex; 

OF 


(MESSRS HIRIEN fa HY globalmem wy && FAI) IRIN PK BL 


lotgLtro Int init globalmem inlt(voxe) 


3 ant ret; 
dev t devno = MKDEV(globalmem major, 0); 


4 
5 
6 if (globalmem major) 
2 
8 


Pet = peglster ochrdev reglon(devno, dy "globalmem")5; 
else { 

9 pet = alloc chrdev reoroni(isdevno, 0, Il, "globarlmen"); 
10 globalmem major = MAJOR(devno); 
11 } 
12 if (ret < 0) 
La return Tet: 
14 


i>  oglobalmen devp = kzalloc(sizeof(strucc globalmen dev); GEP BERNEL)Sj 
16 if (!globalmem devp) { 


17 ret = -ENOMEM; 

18 goto fail malloc; 
19. } 

20 


21 mutex init(&globalmem devp-»mutex); 
22 globalmem setup cdev(globalmem devp, 0); 
23 TELULN U; 


290 Iani: malloc: 

20 Hureglster -chrdevy regron(devno, 19; 
27 3rturim reri 

28} 

29moduls. xnibiglooalmem.-xnizc) 


在 访问 globalmem dev 中 的 共享 资源 时 ， 需 先 获取 这 个 互 斥 体 ， 访 问 完成 后 ， 随 即 释放 这 个 互 斥 体 。 
驱动 中 新 的 globalmem 斌 、 写 操作 如 代码 清早 7.6 所 示 。 


代码 清单 7.6 ”增加 并 发 控制 后 的 globalmem 斌 、 与 操作 


lsLatrzo 2 
2 Loft © * ppos) 

24 

4 unsigned long p = *ppos; 

5 unsigned int count - size; 

6 int ret = 0; 


7 

8 

9 
10 
TT 
12 
13 
14 
to 
16 
17 
18 
Hes 
20 
21 
22 
23 
24 
Zo 
26 
Ad 
28 
PAS 
30 
31 
22 
33 
34 
SE 
205 
3 
38 
39 
40 
41 
42 
43 
44 
45 
46 
4] 
48 
49 
50 
al 
vv, 
Do 
54 
Bu 
96 
Du 
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代码 清单 7.7 增加 并 发 控制 后 的 globalmem 设 备 驱 动 ioctl C) 


l 
2 
3 


struct globalmem dev *dev 


Irlpecprivate Gata, 


if (p >= GLOBALMEM SIZE) 
return 0; 
Lt (Count > GLOBALMEM SIZE - p) 
count = GLOBALMEM SIZE = p} 
mutex. lock (édev-—>mutex) ; 


Lr (COpy tO ser (bur, count)) 1 
ret -EFAULT; 

} else | 
*ppos += count; 


ret count; 


dev->mem + P, 


printk(KERN INFO "read $u bytes(s) from @lu\n", 


) 
inutex unlooRlegev-omutex); 


return ret; 


j 


Static Goize 1 globalmem rice (Struct tile "*LLLD, 
size. 0 Size; LOPE t * DPOS) 
{ 
unsigned long p 
unsigned int count 
int ret = 0; 
struct globalmem dev *dev 


^DDOST 
size; 


rrlpe-e?private data; 
ir (p >= GLOBALMEM SIZE) 
return 0; 
(count > GLOBALMEM SIZE = m) 
count GLOBALMEM SIZE = p; 


I 


mutex lock(&dev-»mutex); 


lr (COpy Tron üseridev-omenm + p; but; Ccounc):) 
ret =EFAULT} 

else { 
*ppos += count; 


ret count; 


Print kh (KERN INFO "written <u. bytes (Ss) 


} 
mutex unlock (&dev->mutex) ; 


return ret; 


} 


BR f globalmemhj ie. SERVE ZI, UDIRTERE. 5 
， 也 会 


Stacie Long globalmem LoOLL(SLEUCL tile. "fiip; 
unsigned long arg) 


{ 


struct globalmem dev ^dev = Llp- private data; "ES 
switch (cmd) { 
Case MEM CURAR: 
mutex lock (&dev->mutex) ; 
memset (dev->mem, 0, GLOBALMEM SIZE); 
mutex unlock(&dev-»mutex); 
printk(KERN INFO "globalmem is set to zero\n"); 
break; 
default: 
return -—-BEINVAL; 
} 
return 0; 


Const char 


from 2u n", 


Count, 


COUunL, 


与 的 同时 ， 


导致 全 局 内 存 的 寓 乱 ， 因 此 ，globalmem ioctl () P 


unsigned int omd, 


u eet 


p); 


user 


álli 


* NI. 


p); 


L1, E43, 


7 EH. o 


源 访 问 结束 后 释放 信号 


另 一 个 执行 单元 执行 MEM CLEAR IO 控制 
函数 也 需 被 重 写 ， 如 代码 清单 7.7 所 示 。 


pA BL 


a 


增加 并 发 控制 后 globalmem 的 完整 驱动 位 于 本 书 虚 拟 机 的 例子 /kernel/drivers/globalmem/ch7 目 录 下 ， 其 
使 用 方法 与 第 6 半 globalmem 驱 动 在 用 户 空 间 的 验证 一 狼 。 


7.10 总结 
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8.2 p UPS f Ww (Poll) 操作 有 的 概念 和 编程 方法 ， 轮 询 可 以 帮助 用 己 了 解 是 任 能 对 设备 进行 
ZG KAZE VT In] e 


8.3 节 讲解 在 globalfifo 中 增加 轮 询 操作 的 方法 ， 并 使 用 select、epoll 在 用 户 空 间 进行 了 验证 。 


8.1 BH3ESdEBH3ELO 


HH2EPRTEZETRTEDUT WS PRFID, AA HERA PRU. WEEE RE E Pv E AY PRE EN RE RH ET TR 
lE. BCE REIN EPRI A HENRI AS, BOM Ved BE a HIST A PEE. LBS EN RP AE © TM AFP SERRE EY 
EIEE REITA REN, FAEERE, CRAKS, BAMPMAW, AeA DBE ERIE AIE. 


驱动 程序 通常 需要 提供 这 样 的 能 力 : 当 应 用 程序 进行 read O . write O ASU, ZEE 
源 不 能 获取 ， 而 用 户 又 名望 以 阻塞 的 方式 访问 设备 ， 驱 动 程序 应 在 设备 驱动 的 xxx_read O 、 
xxx write〈) 等 操作 中 将 进程 阻塞 直到 资源 可 以 获取 ， 此 后 ， 应 用 程序 的 read O ~ write O 等 调用 才 返 
器 ， 整 个 过 程 仍然 进行 了 正确 的 设备 访问 ， 用 户 并 没有 感知 到 ; 大 用 户 以 非 阻 窜 的 方式 访问 设备 文件 ， 则 
当 设 备 资 源 不 可 获取 时 ， 设 备 驱 动 的 xxx_read O ~ xxx write () 等 操作 应 立即 返回 ，read O 、 
write O 等 系统 调用 也 随即 被 返回 ， 应 用 程序 收 到 -EAGAIN 返 回信 。 


如 图 8.1 所 示 ， 在 阻塞 访问 时 ， 不 能 获取 资源 的 进程 将 进入 休眠 ， 它 将 CPU 资源 “礼让 ?给 其 他 进程 。 
因为 阻塞 的 进程 会 进入 休眠 状态 ， 所 以 必须 确保 有 一 个 地 方 能 够 唤醒 休眠 的 进程 ， 人 否则 ， 进 程 就 真 的 “ 寿 
终 正 究 ”" 了 。 唤 醒 进 程 的 地 方 最 大 可 能 发 生 在 中 断 里 面 ， 因 为 在 硬件 资源 获得 的 同时 往往 伴随 着 一 个 中 
上 断 。 而 非 阻塞 的 进程 则 不 断 尝 试 ， 直 到 可 以 进行 IO。 


read()/write() 返回 读 写 的 
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图 8.1  BH3E 5 JEPH3EI/O 


代码 清单 8.1 和 8.2 分 别 污 示 了 以 阻塞 和 非 阻 塞 方式 谈 取 串口 一 个 字符 的 代码 。 前 者 在 打开 文件 的 时 候 
没有 O_NONBLOCK 标 记 ， 后 者 使 用 O_ NONBLOCK 标 记 打 开 文 件 。 


代 但 清单 8.1 阻塞 地 读 串 口 一 个 字符 


char bur; 
fd = open("/dev/ttyS1", O RDWR); 


res = read(fd,&buf,1); /* “SOLARMAN RE */ 
if(res--1) 
preinprotsoocium". but); 


代 但 清单 8.2 ” 非 阻 蜜 地 读 串 口 一 个 字符 


char Dur; 
fd = open("/dev/ttyS1", O RDWR| O NONBLOCK); 


while(read(fd,&buf,1)!-1) 
continue; /* 串口 上 无 输入 也 返回 ， 因 此 要 循环 党 试 读 取 串 口 */ 
和 


除了 在 打开 文件 时 可 以 指定 阻 赛 还 是 非 阻 塞 方式 以 外 ， 在 文件 打开 后 ， 也 可 以 通过 ioctt O 和 
font! O 改变 读 写 的 方式 ， 如 从 阻塞 变更 为 非 阻塞 或 者 从 非 阻塞 变更 为 阻塞 。 例 如 ， 调 用 fcntl (fd, 
F SETFL. O NONBLOCKO 可 以 设置 亿 对 应 的 IO 为 非 阻 宪 。 


8.1.1 等待 队 列 


在 Linux 驱 动 程 序 中 ， 可 以 使 用 等 待 队 列 〈Wait Queue) 来 实现 阻塞 进程 的 唤醒 。 等 待 队 列 很 早 就 作为 
一 个 基本 的 功能 里 位 出 现在 Linux 内 核 里 了 ， 它 以 队列 为 基础 数据 结构 ， 与 进程 调度 机 制 罕 密 结合 ， 可 以 
用 来 同步 对 系统 资源 的 访问 ， 第 7 草 中 所 讲述 的 信号 量 在 内 核 中 也 依赖 等 竺 队列 来 实现 。 


Linux 内 核 提 供 了 如 下 关于 等 每 队列 的 操作 。 
1 .定义 “等 竺 队列 头 部 ” 
wait queue head t my queue; 
wait queue head té wait queue head 结构 体 的 一 个 typedef。 
2. 初 始 化 “等 竺 队列 头 部 ” 
init waikqueue head(&my queue); 
而 下 面 的 DECLARE WAIT QUEUE HEAD O 宏 可 以 作为 定义 并 初始 化 等 每 队列 尖 部 的 “快捷 方式 ”。 
DECLARE WAIT QUEUE HEAD (name) 
3. 定 义 等 每 队列 元 系 
DECLARE WAITOUEUE (name, tsk) 
该 宏 用 于 定义 并 初始 化 一 个 名 为 name 的 等 每 队列 元 系 。 
4. 浇 加 / 移 除 等 竺 队列 


void add wait queue(wait queue head t *q, wait queue t *wait); 
void remove wait queue(wait queue head t *q, wait queue t *wait); 


add wait queue O HI T-FESSHREBA 976 Be waits JH 8 Sg BA A] Sab Fa I Bu EXER. TTD 
remove wait queue O 用 于 将 等 每 队列 元 系 wait 从 由 q 头 部 指 问 的 链表 中 移 除 。 


5. 等 待 事件 


Wait event interruptible(queue, condition) 
Wait event timeout(queue, condition, timeout) 


wait event (queue, condition) 
wait event interruptible timeout (queue, condition, timeout) 


等 生 第 1 个 参数 queue 作 为 等 竺 队列 头 部 的 队列 被 唤醒 ， 而 且 第 2 个 参数 condition 必 须 满 足 ， 人 否则 继续 
[H3E. wait event () 和 wait event interruptible O 的 区 列 在 于 后 者 可 以 和 概 信 号 打 断 ， 而 前 者 不 能 。 加 上 
_ftimeout 后 的 宏 意 味 痢 阻 堵 等 竺 的 超时 时 间 ， 以 jifty 为 单位 ， 在 第 3 个 参数 的 timeout 到 达 时 ， 不 论 condition 
AERE. 3. 


6. 唤 醒 队 列 


void wake up(wait queue head t *queue); 
void wake up interruptible (wait queue head t *queue); 


上 述 操作 会 唤醒 以 queue 作 为 等 竺 队列 头 部 的 队列 中 所 有 的 进程 。 


wake up Ò 应 该 与 Wait event () 或 wait event timeout () 成 对 使 用 ， 而 wake up interruptible (Ò ll 
应 与 wait event interruptible () 或 wait event interruptible timeout ©) 成 对 使 用 。wake up © 可 唤醒 处 于 
TASK INTERRUPTIBLE 和 TASK UNINTERRUPTIBLE 的 进程 ， 而 wake up interruptible () 只 能 唤醒 处 于 
TASK INTERRUPTIBLE 的 进程 。 


7. 在 等 竺 队列 上 睡 虐 


sleep oniwalrL queue head t *q Jy 
ipterrüptrible sleep on(warlt queue head t. *"q J; 


sleep on O 函数 的 作用 就是 将 目前 进程 的 状态 置 成 TASK_UNINTERRUPTIBLE， 并 定义 一 个 等 每 队 
列 元 系 ， 之 后 把 它 挂 到 等 竺 队列 头 部 q 指 同 的 双 同 链表 ， 直 到 资源 可 获得 ，q 队 列 指 同 链接 的 进程 被 唤 
We 


interruptible sleep on O sleep on〈) 畏 数 闫 似 ， 其 作用 是 将 目前 进程 的 状态 置 成 
TASK INTERRUPTIBLE， 并 定义 一 个 等 待 队列 元 素 ， 之 后 把 它 附 属 到 q 指 同 的 队列 ， 直 到 资源 可 获得 Cg 
指引 的 等 竺 队列 被 唤 醒 ) 或 者 进程 收 到 信号。 


sleep on O 函数 应 该 与 Wake up ©) 成 对 使 用 ，interruptible sleep on O iz 5 
wake up interruptible CO 成 对 使 用 。 


代码 清单 8.3 误 示 了 一 个 在 设备 张 动 中 使 用 等 竺 队列 的 模版 ， 在 进行 写 IO 操作 的 时 候 ， 判 断 设 备 是 合 
可 写 ， 如 来 不 可 写 且 为 阻 写 WO， 则 进程 睡 虐 并 挂 起 到 等 每 队列 。 


代 但 清单 8.3 ”在 设备 驱动 中 使 用 等 行 队列 


lotatro LS D SX WIIDOTSLPUCC 二 LE COnst char ^DOüLIGC, size t Counc, 

2 Olt © *DpOS) 

94 

J 

5 DECLARE WAITQUEUE (wait, current); /* 定义 等 待 队列 元 素 */ 
6 add wait queue(&xxx wait, &wait); /* 添加 元 素 到 等 待 队列 */ 


8 /* 等 待 设备 缓冲 区 可 写 */ 


9 do { 
10 avail = device wEIILSODLIGet. e); 
11 if (avail < 0) { 
12 if (file->f flags &O NONBLOCK) { /* 非 阻塞 * / 
13 ret = -EAGAIN; 
14 GOLO out; 
1:5 ) 
16 | Set current state(TASK INTERRUPTIBLE); /* 改变 进程 状态 */ 
17 schedule(); /* 调度 其 他 进程 执行 */ 
18 if (signal pending(current)) { /* 如 果 是 因为 信号 唤醒 */ 
1:9 ret =  -ERESTARTSYS; 
20 goto Ut; 
2l } 
22 } 
2. ) while (avail « 0); 
24 


25b  /* 写 设备 缓冲 区 */ 
0 


24. OUL 

28 remove wait queue(&xxx wait, &wait); /* 将 元 素 移 出 XXX Wait 指引 的 队列 */ 
29 set current state (TASK RUNNING); /* 设置 进程 状态 为 TASK RUNNING */ 
SD TLE rec; 

313 


读 懂 代 码 清单 8.3 对 理解 Linux 进 程 状态 切换 非常 重要 ， 所 以 提请 读者 反复 阅读 此 段 代 码 (尤其 注意 其 
中 黑体 的 部 分 ) ， 直 至 完全 领悟 ， 几 个 要 点 如 下 。 


1) WREIDE CO NONBLOCK VE E , ， 设 备 忙 时 ， 直 接 返 回 “-EAGAIN”。 


2) 对 于 阻塞 访问 ， 会 调用 ”set current state (TASK INTERRUPTIBLE) 进行 进程 状态 切换 并 显示 通 
过 “schedule €) "调度 其 他 进程 执行 。 


3) 醒 来 的 时 候 要 注意 ， 由 于 调度 出 去 的 时 候 ， 进 程 状 态 是 TASK INTERRUPTIBLE, BU? S£ BEER. 
所 以 唤醒 它 的 有 可 能 是 信号 ， 因 此 ， 我 们 首先 通过 signal pending (current) 了 解 是 不 是 信号 唤醒 的 ， 如 果 
是 ， 立 即 返 回 “-ERESTARTSYS”。 


DECLARE WAITQUEUE, add wait _ queue 这 两 个 动作 加 起 来 完成 的 效果 如 图 8.2 所 示 。 在 
wait queue head tH ANERE, We X Await queue 元 系 伏 插入 ， 而 这 个 新 插入 的 元 系 绑 定 了 一 个 
task struct《 当 前 做 xxx write 的 current， 这 也 是 DECLARE WAITQUEUE 使 用 “current” 作 为 参数 的 原因 ) 。 


aces 
-+ = 
- ™ 







i | task struct ; task struct 


- - 
Vue 








E task task i 
prev prev prev prev 


next next next next 


lock flag func flag func flag func 


wait queue head t 


autoremove wake function () default wake function() 


K|8.2 wait queque head t. wait queque 和 task struct H WIR Z 


wait queue 





wait queue wait queue 


8.1.2 ” 文 持 阻 奢 操作 的 globalfifo 设 备 豫 动 


现在 我 们 给 globalmem 增 加 这 样 的 约束 : 把 globalmem 中 的 全 局 内 存 变 成 一 个 FIFO， 只 有 当 FIFO 中 有 
数据 的 时 候 《〈 即 有 进程 把 数据 写 到 这 个 FIFO 而 且 没 有 被 读 进 程 读 空 》， 读 进程 才能 把 数据 读 出 ， 而 且 读 
取 后 的 数据 会 从 globalmem 的 全 局 内 存 中 被 拿 挥 ; 只 有 当 FIFO 不 是 满 的 时 《“ 即 还 有 一 些 空间 未 被 写 ， 或 写 
满 后 被 读 进 程 从 这 个 FIFO 中 读 出 了 数据 ) ， 写 进程 才能 往 这 个 FIFO 中 写 入 数据 。 


现在 ， 将 globalmem 重 命名 为 “globalfifo”， 在 globalfifpe 中 ， 读 FIFO 将 唤醒 写 FIFO 的 进程 〈 如 果 之 前 
FIFO 正 好 是 满 的 ) ， 而 写 FIFO 也 将 唤醒 读 FIFO 的 进程 《如果 之 前 FIFO 正 好 是 空 的 ) 。 首 先 ， 需 要 修改 设 
备 结构 体 ， 在 其 中 增加 两 个 等 竺 队列 头 部 ， 分 别 对 应 于 谈 和 与 ， 如 代码 清单 8.4 所 示 。 


代码 清单 8.4 _ globalfifo 设 备 结构 体 


ie 

2 struct cdev cdev; 

3 Unsigned int OurreHt len; 

4 unsigned char mem[GLOBALFIFO SIZE]; 
5 struct mutex mutex; 

6 wait queue head t r wait; 

7 wait queue head t w wait; 

8 


^; 


Ejglobalfifoix 4 £i 44 AH 3 — ^ AI] A28 JI f current. len 成 员 以 用 于 表征 目前 FIFO 中 有 效 数 据 的 长 
BE. current len} OM UK FIFO2, current len 等 于 GLOBALFIFO SIZE 4 FIFO} 


IX BY AP S Rr BA, n] 3E SE i CE V e D JE E PRA a] init waitqueue head (©) 被 和 初始化， 新 的 设备 
JC p E UE BX ER OO US 8.5 AIT AN o 


代码 清单 8.3  elobalfifoi Fe I5 TR EJ aX ER] AL 


PStarie ane sano globsLbbsro myctvord) 
Zu 
3 int ret; 
dev t devno = MKDEV(globalfifo major, 0); 


4 
5 
o Xf (globalrifo major) 
7 
8 


rot = pegrister obrdev region (deyvno, Ly "globalrito")s 
else { 
9 rer e alloc ochroev regiloni(iedevuo, 0; ly "globalblito")7 
10 globalfifo major - MAJOR (devno); 
11 } 
12 if (ret < 0) 
13 return ret; 
14 


15. global iro devi = kzalloctsizeor (struct Globalfito. dev); Grr. KERNEL); 
16 xL (iglobalrico devp) 1 


UM ret = -ENOMEM; 

18 goto fail malloc; 

195 f 

20 

zl  globalrifo setup cdev(gloDalrilro devp, 0); 
2 


22 Mucex inixt(sglobalrfifo devp-»mutex); 
24 init waitqueue head(&globalfifo devp-»r wait); 
25 init waitqueue head(&globalfifo devp->w wait); 


2] return O0; 


Zt arr medlous. 

9D. unregister chrdev Tregronidevnoy d 
Sl Peturi Set; 

32] 

3Somogule- mnrtigrobedrLLo mec); 


Ve BE BEE is IE, ERA mI Me BE globalfifo devp->w_waithi# 7), mE 5 HEE 
中 唤醒 globalfifo devp->r wait， 如 代码 清单 8.6 所 示 。 


代码 清单 8.6 ”增加 等 每 队列 后 的 globalfifo 读 写 函 数 


人 
2 S349 d Countea “OEE D -oppos) 
9d 


4int ret; 

ostruct globalillo dev “dey = CILP private data; 
6DECLARE WAITQUEUE(wait, current); 

7 

omutex lock (&dev->mutex) ; 

2add wait queue (&dev->r wait, &wait); 


10 

plwHLlLe.q(devescusregnt Len == U 4 

12 if (Lilp=>f flags &.O NONBLOCK) 1 

LES ret = -EAGAIN; 

14 goto uut; 

LS } 

16 SEC Current state (TASR INPEBRUPTIBHhE): 
10 mutex unlock(&dev-»mutex); 

18 

19 schedule(); 

20 LE (sto ives. Pending (Current) i 

24 ret ‘= =ERESTARTSY o7 

22 Goto outZ? 

25 } 

24 

Zo mutex lock (&dev->mutex) ; 

26 } 

24 

Zo. IOOUnel deve Current en) 

29 gount -S gev- current len; 

30 

SIL XOODY EO USer(oub5;-devsnem; Coumb) “i 
92 ret = -EFAULT; 

55 GOLO Gut? 

34} else { 

39 Injemcpytdev- mem, -ougeveonem F count, devscurrent len = -Count) > 
a6 deve Currene en ==: Count; 

Ou printk(KERN INFO "read $d bytes(s),current len:%d\n", COUN, 
33 deveocurrent len): 

39 

40 wake up interruptible(sdev-»2w wait); 
41 

42 ret = "COUNt> 

43} 

44 out: 

45mutex unlock(&dev-»mutex);; 

46 out2: 


4‘iremove wait queue(&dev-»w wait, &wait); 

48set current state(TASK RUNNING); 

49return ret; 

50] 

od 

Sao Ca TOOS LoglobDelrrto wriite(sULbuegb Elle FEL; const char oer pur 
53 本 ie LOLL S IPLOS) 

54 { 

oOoStrPucut globali rro dev “dev = .FILO => private date; 
Dont Lees 

39 7DECLARE WAITQUEUE (wait, Curren t)-* 

58 

o9mutesx lock (&édevi=r>mucex); 

6Qadd wait queue (é&dev->w wait, &wait); 


61 

o2zwhile (dev-2current len == GLOBABLEIBO SIZE) 1 
63 Lt (EL Plagso& O-NONBLOOCRK) 1 

64 ret = -EAGAIN; 

65 goto out; 

66 } 

67 — Set OUrrent stave (TASK LINTERRUPTLIBEE); 
68 


69 mutex unlock(&dev-»mutex); 


11 schedule(); 

Ta Dr {etgnal pending (Current) i 

T3 rec = —ERBROTARISYSS 

74 Gono: -OUuLZ; 

Ps } 

76 

Jy mutex lock(&dev-»mutex); 

78} 

79 

SULT. (count v GLHLOBALEIFNO SLAE = ey >0urtenE Len) 
ol count = GhOBALELFO SIZE deve cunsrent. Len, 
82 

S3Lr (Copy: Tron user(dev- men: + dev- Current. len, ur; Cont) 4 
84 ret = -HEFAULT; 

85 goto cout; 

86} else { 

87 devs CUr rent len Fe COUN 

88 prinutk(KERN INFO: "written pa bytes(s),current len:%d\n", (Ord. 
89 Oev=> Cur rem: Ben 

90 

9 wake- up interrüuptiDle(sdeve sr warct 

92 

93 ret = count; 

94 } 

95 

96: Out 

97mutex unlock (é&dev->mutex) ;; 

S O- OUr 


99remove wait queue(&dev-»w wait, &wait); 
L00Set- current. stave (TASK RUNNING); 
lülreturn ret: 
102] 


globalfifo read C) 通过 第 6 行 和 第 9 行将 自己 加 到 了 r_wait 这 个 队列 里 面 ， 但 是 此 时 谈 的 进程 并 未 睡 
眼 ， 之 后 第 16 行 调用 set current state (TASK INTERRUPTIBLE) 时 ， 也 只 是 标记 了 task struct 的 一 个 小 
度 睡 眠 标记 ， 并 未 真正 睡 卢 ， 直 到 第 19 行 调用 schedule() ， 读 进程 进入 睡眠 。 进 行 完 读 操 作 后 ， 第 40 行 
调用 wake up interruptible (&dev->w_wait) 唤醒 可 能 阻 于 的 与 进程 。globalfifo_ write O 的 过 程 与 此 类 
ive 


关注 代码 的 第 17 行 和 69 行 ， 无 论 是 读 函 数 还 是 写 函 数 ， 进 入 schedule〈() 把 自己 切换 出 去 之 前 ， 都 主 
动 释放 了 互 斥 体 。 原 因 是 如 果 读 进程 阻塞 ， 实 际 意 味 着 FIFO 空 ， 必 须 依赖 写 的 进程 往 FIFO 里 面 写 东西 来 
唤醒 它 ， 但 是 写 的 进程 为 了 与 HIFO， 筷 也 必须 全 到 这 个 互 斥 体 来 访问 FIFO 这 个 临界 资源 ， 如 条 读 进 程 把 
自己 调度 出 去 之 前 不 释放 这 个 互 斥 体 ， 那 么 读 写 进程 之 间 就 死 锁 了 。 所 谓 死 锁 ， 就 是 多 个 进程 循环 等 待 他 
方 占 有 的 资源 而 无 限期 地 僵持 下 去 。 如 果 没 有 外 力 的 作用 ， 那 么 死 锁 涉及 的 各 个 进程 都 将 永远 处 于 封锁 状 
态 。 因 此 ， 驱 动工 程 师 一 定 要 注意 : 当 多 个 等 待 队 列 、 信 号 量 、 互 斥 体 等 机 制 同时 出 现时 ， 谨 防 死 锁 ! 


现在 回 过 来 了 看 一 下 代码 清单 8.6 的 第 12 行 和 63 行 ， 友 现在 设备 驱动 的 read O ~ write © 等 功能 函数 
中 ， 可 以 通过 filp->f flags 标 志 获 得 用 户 空间 是 否 要 求 非 阻 窄 访问 。 了 驱动 中 可 以 依据 此 标志 判断 用 户 究 葛 要 
求 阻塞 还 是 非 阻 塞 访 问 ， 从 而 进行 不 同 的 处 理 。 


代码 中 还 有 一 个 关键 点 ， 束 是 无 论 读 国 数 还 是 与 国 数 ， 在 进入 真正 的 谈 与 之 前 ， 都 要 册 雇 判 灶 设备 十 
个 可 以 恋 写 ， 见 第 11 行 的 while (dev->current len==0) 和 第 62 行 的 while Cdev- 
»current len-- GLOBALFIFO SIZE) 。 主 要 目的 是 为 了 让 并 发 的 谈 或 者 并 有 的 与 都 正确 。 设 想 如 末 两 个 读 
进程 都 阻塞 在 该 上 ， 写 进程 执行 的 wake up interruptible (&dev->r wait) 实际 会 同时 唤醒 它们 ， 其 中 先 执 


行 的 那个 进程 可 能 会 率先 将 FIFO 再 次 该 空 ! 


8.1.3. ÆHF FH uüEglobalfifo f 13:57 


AS PRS FE HJ/kernel/drivers/globalfifo/ch8 82$ J globalfifof*] 3X2), ‘make”* 命 令 编 译 得 到 
globalfifo.ko。 接 着 用 insmod 模 块 


# insmod globalfifo.ko 


创建 设备 文件 节点 “dewglobalfifo”， 有 具体 如 下 : 


# mknod /dev/globalfifo c 231 0 


局 动 两 个 进程 ， 一 个 进程 cat/dewglobalfifo& 在 后 台 执 行 ， 一 个 进程 echo 字符 串 /dewglobalfifo”" 在 前 合 
执行 : 
# cat /dev/globalfifo & 
[1] 20910 
# echo 'I want to be' > /dev/globalfifo 
I want to be 


# echo 'a great Chinese Linux Kernel Developer' > /dev/globalfifo 
a great Chinese Linux kernel Developer 


每 当 echo 进 程 同 /dev/globalfifo 写 入 一 串 数 据 ，cat 进 程 就 立即 将 该 串 数 据 显 现 出 来 ， 好 的 ， 让 我 们 抱 着 


这 个 信念 “IT want to be a great Chinese Linux Kernel Developer 4k 22 gj 17 lE ! 


往 /dev/globalfifo 里 面 echo 需 要 root 权 限 ， 和 直接 运行 “sudo echo" 征 不 行 的 ， 可 以 乞 执行 


baohua@baohua-VirtualBox://sys/module/globalmem$ sudo su 
[sudo] password for baohua: 


这 段 代码 的 密码 也 是 “baohua”。 之 后 再 进行 echo。 


8.2” 轮 询 操 作 
8.2.1 轮 询 的 概念 与 作用 


在 用 户 程序 中 ，select〈() 和 poll O 也 是 与 设备 阻 罕 与 非 阻 窄 访问 奶奶 相关 的 论题 。 使 用 非 阻 罕 /O 
的 应 用 程序 通常 会 使 用 select“) Mpo O 系统 调用 人 查询 是 否 可 对 设备 进行 无 阻 瑟 的 访问 。select() 和 
poll O 系统 调用 最 终 会 使 设备 驱动 中 的 poll() 函数 被 执行 ， 在 Linux2.5.45 内 核 中 还 引入 了 epol © ， 即 
扩展 的 poll ©) 。 


select O 和 poll() 系统 调用 的 本 质 一 样 ， 前 者 在 BSD UNIX 中 引入 ， 后 者 在 System V 中 引入 。 


8.2.2 ”应 用 程序 中 的 轮 询 编程 


应 用 程序 中 最 广泛 用 到 的 是 BSD UNIX 中 引入 的 select O 系统 调用 ， 其 原型 为 : 


idt selecL0LDL S2uNBLdS. IU. See “~Lreadids, Id see “writers; id S6C 9SXCODLEOS, 
struct timeval *timeout); 


其 中 readfds、Wwritefds、exceptfds 分 别 是 被 select O 监视 的 读 、 写 和 异常 处 理 的 文件 描述 从 集合 ， 
numfds 的 值 是 需要 检查 的 号码 最 高 的 亿 加 1。readfds 文 件 集 中 的 任何 一 个 文件 变 得 可 读 ，select〈() 返回 ; 
同 理 ，writefds 文 件 集中 的 任何 一 个 文件 变 得 可 写 ，select 也 返回 。 


如 图 8.3 所 示 ， 第 一 次 对 n 个 文件 进行 select《〈) 的 时 候 ， 石 任何 一 个 文件 满足 要 求 ，select〈) LE Re 
返回 ; FRA Tselect O 的 时 候 ， 没 有 文件 满足 读 写 要 求 ，select《〈) WHEE HR. HFH 
select O 的 时 候 ， 每 个 驱动 的 poll O 接口 都 会 被 调用 到 ， 实 际 上 执行 select〈(〉 的 进程 被 挂 到 了 每 个 驱动 
的 等 待 队 列 上 ， 可 以 被 任何 一 个 驱动 唤醒 。 如 果 FDn 变 得 可 读 写 ，select〈() 返回 。 


Selec 
| zn 
| e. 
| 
| 
| *** 
| 
L 
| 
| 
= 
T‘ j lilt 等 待 


| 
任何 文件 FD， 没有 文件 FD, 变 得 
可 以 读 写 | 可 以 读 写 可 以 读 写 
| 








图 8.3 ”多 路 复 用 select ©) 


timeout Zi fe — T 18 [Fl struct timeval 类 型 的 指针 ， 它 可 以 使 select O 在 等 待 timeout 时 间 后 奉 仍 然 没 有 
文件 描述 符 准 备 好 则 超时 人 返回。struct timeval 数 据 结构 的 定义 如 代码 清单 8.7 所 示 。 


代码 清单 8.7 ”timeval 结 构 体 定义 


lstruct timeval { 


2 Int. Ty se; /* gb */ 
2 int tv usec; /* 微 秒 */ 
4}; 


PUNE RBC. THER. FULT CTP TIA TT SE : 


ED JABRO(IG Set “set) 


清除 一 个 文件 拍 述 符 集 合 


ED SET (ine Xd sd sec TJET) 


将 一 个 文件 描述 符 加 入 文件 摘 述 符 集 合 中 : 


ED CDR(OIMU Bed set. ^589e9t) 


TE — P SCE TID AT DAOC TID ATS AR 


SES 
X 


ED Teoh (Ln £0; 0d! seu. ^set) 


FET SCF IE TT HE 3 BCL. « 


poll ©) 的 功能 和 实现 原理 与 select O 相似 ， 其 函数 原 


Ine, POLL GSUPUCL POLLA “fds; Mids Lb nos nc Gineout) 


id 


Sun inst 


SS IRA SCPE RK. VOU ESSI I AAS AE trf select O Mpo O ， 此 种 情 


EjepollAfB KRH P T RI Fez H1 8135: 


InG GDOLL Orequetrdt- ge). 


况 下 ，select ©) 和 poll O 的 性 能 表现 较 差 ， 我 们 宜 使 用 epoll。epoll 的 最 大 好 处 是 不 会 随 看 乌 的 数目 增长 
MRX, selet ©) 则 会 随 着 fd 的 数量 增 大 性 能 下 降 明 显 。 


创建 一 个 epoll 的 句柄 ，size 用 来 告诉 内 核 要 监 昕 多 少 个 得 。 和 需要 注音 的 是 ， 当 创建 好 epoll 句 檐 后 ， 它 


本 里 也 会 占用 一 个 {4 值 ， 所 以 在 使 用 完 epoll 后 ， 必 须 调用 close() 关闭 。 


Ine SPOLL :Ceistineeprd;, GIHb- Ops, Dive Idy- sSeruce. poll venue, €9venu)s 


告诉 内 核 要 监听 什么 次 型 的 事件 。 第 1 个 参数 是 epoll create © 的 返回 值 ， 第 2 个 参数 表示 动作 ， 包 


EPOLL CTL ADD: 注册 新 的 各 到 epfd 中 。 


EPOLL CTL MOD: 修改 已 经 注册 的 和 的 监听 事件 。 


EPOLL CTL DEL: 从 epfd 中 删除 一 个 季 。 


N 


F3T SBE na deu Nid, 9844 BBE BVA na e Ha AN SES 


SUPUOtcepobLb event 4 

uint32 t events;  /* Epoll events */ 

epoll data t data;  /* User data variable */ 
bi 


events 可 以 是 以 下 几 个 宏 的 “或 ”: 


AY, struct epoll event 结 构 如 下 : 


EPOLLIN: 表示 对 应 的 文件 搬 述 从 可 以 读 。 

EPOLLOUT: 表示 对 应 的 文件 插 述 从 可 以 写 。 

EPOLLPRI: 表示 对 应 的 文件 搬 述 从 有 紧急 的 数据 可 读 〈 这 里 应 该 表示 有 的 是 有 socket 市 外 数据 到 
P EE 

EPOLLERR: zn HI CPP SHIA TT ACL TH VR o 

EPOLLHUP: 表示 对 应 的 文件 搬 述 从 被 挂 断 。 


EPOLLET: 将 epoll 设 为 边缘 触发 〈Edge Triggered) 模式 ， 这 是 相对 于 水 平 触发 (Level Triggered) 来 
说 的 。LT (Level Triggered) 是 缺 省 的 工作 方式 ， 在 LT 情况 下 ， 内 核 告诉 用 户 一 个 伺 是 否 承 绊 了 ， 之 后 用 
尸 可 以 对 这 个 束 弹 的 得 进行 WO 操作 。 但 是 如 果 用 户 不 进行 任何 操作 ， 访 事件 并 不 会 丢失 ， 而 ET (Edge- 
Triggered) 是 高 速 工 作 方式 ， 在 这 种 模式 下 ， 当 得 从 未 就 绪 变 为 就 绪 时 ， 内 核 通过 epoll 告 诉 用 户 ， 然 后 它 
eB PA fd A AR, FFA ANS RAS Pd AIK E E EA A AL 


EPOLLONESHOT: ŽRE WREE, SSN Se SE Za, WMR m ERA I ae dbi 
32 FE YR FELIX PS Ed IIA Bllepoll BA 7i] E . 


Ine, Spoll war (10L epid; SCtrHUct epoll event ~ evento; ant Maxevents, int. timeout); 


SRP ree, A PeventsB are T9 D 2235. HRANIREA, maxevents tr VFA TAK 
最 多 收 多 少 事 件 ，maxevents 的 ee O 时 的 size， 参 数 fimeout 是 超时 时 间 《〈 以 坚 秘 


为 单位 ，0 意 味 痢 立即 返回 ，-1 意 味 独 永久 等 竺 ) 。 该 亢 数 的 返回 值 是 需要 处 理 的 事件 数目 ， 如 返回 0， 则 
表示 已 超时 。 


ALT https://www.kernel.org/doc/ols/2004/0182004v1-pages-215-226.pdff*] X: (Comparing and Evaluating 
epoll, select, and poll Event Mechanisms》 对 比 了 select、epoll、poll 之 间 的 一 些 性 能 。 一 般 来 说 ， 当 涉及 的 
fd 数量 较 少 的 时 候 ， 使 用 select 是 合适 的 ; 如 果 涉 及 的 人 很多， 如 在 大 规模 并 发 的 服务 器 中 候 听 许多 socket 
的 时 候 ， 则 不 太 适 合 选 用 select， 而 适合 选用 epoll。 


8.2[3 ”设备 驱动 中 的 轮 询 编程 


设备 驱动 中 poll() 函数 的 原型 是 : 


ins toned, med POLL) (struct tile * filp, struce poll table* wail); 


第 1 个 参数 为 fle 结 构 体 指针 ， 第 2 个 参数 为 轮 词 表 指 和 针 。 这 个 函数 应 该 进行 两 项 工作 。 


1) 对 可 能 引起 设备 文件 状态 变化 的 等 待 队 列 调 用 poll_wait〈) 函数 ， 将 对 应 的 等 竺 队列 头 部 添加 到 


poll table. 


2) BERRE Be A ee EAT CPA EI. TTA) TARAS 


用 于 辐 poll table 注 册 等 竺 队列 的 关键 poll wait ©) 函数 的 原型 如 下 : 


void poll,wect(struct file *ILlp, wait queue heat L ^queue, poll table * wait); 


poll wait O 函数 的 名 称 非常 容易 让 人 产生 误会 ， 以 为 它 和 wait event O 等 一 样 ， 会 阻塞 地 等 待 某 
事件 的 发 生 ， 其 实 这 个 函数 并 不 会 引起 阻塞 。poll wait O 隐 数 所 做 的 工作 是 把 当前 进程 添加 到 wait 参 数 
指定 的 等 每 列表 (poll table) 中 ， 实 际 作 用 是 让 唤醒 参数 queue 对 应 的 等 竺 队列 可 以 唤醒 因 select ©) 而 睡 


眠 的 进程 。 


Ika REP poll O 函数 应 该 返回 放 备 资源 的 可 获取 状态 ， 即 POLLIN、POLLOUT、POLLPRI、 
POLLERR、POLLNVAL 等 宏 的 位 “或 结果。 每 个 宏 的 含义 都 表明 设备 的 一 种 状态 ， 如 POLLIN (定义 为 
0x0001) 意味 着 设备 可 以 无 阻塞 地 读 ，POLLOUT (定义 为 0x0004) 意味 着 设备 可 以 无 阻塞 地 写 。 


通过 以 上 分 析 ， 可 得 出 设备 驱动 中 poll O 函数 的 典型 模板 ， 如 代码 清单 8.8 所 示 。 


代码 清单 8.8 poll ©) 函数 典型 模板 


GUSLLO Unsigned INL xxx pollistrucL file *ELLD, poll. table Swart) 


i 
Z3 

3 unsigned int mask = 0; 

4 Struct xxx dev "dev = rilp-^private data; 
S 

6 

7 

8 


poll wait(filp, &dev->r wait, wait); 
poll wait(filp, &dev->w wait, wait); 


tO IE (sas) 


ld mask |= POLLIN | POLLRDNORM; 
1 

lo TE (ssa) 

14 mask |= POLLOUT | POLLWRNORM; 
is 


16 return mask; 


/* 


/* 


/ * 


/ * 
/* 


/* 
/* 


获得 设备 结构 体 指针 * / 


加 入 读 等 待 队列 */ 


加 入 写 等 待 队列 */ 


Wu */ 
标示 数据 可 获得 (对 用 户 可 读 ) * / 








可 写 */ 
标示 数据 可 写 入 * / 





83 ” 文 持 轮 询 操作 的 globalfifo 弛 动 
8.3.1 fEglobalfifo 3k 2) F I Jn Fe val BEE 


fEglobalfifof/poll O PAA A, PEZ e za PS waitflw waits 45 BÀ 7l] 3 $5255 1 Bl S f I Ze 
CARE DAT US] FA select if BA Ee NaH Fe n] DA itr wait 和 w wait 唤醒 ) ， 然 后 通过 判断 dev->current lene 455; T0 
来 获得 设备 的 可 读 状 态 ， 通 过 判断 dev->current_ len 是 否 等 于 GLOBALFIFO SIZE 来 获得 设备 的 可 与 状态 ， 
如 代码 清 蛙 8.9 所 示 。 


代码 清单 8.9 ”globalfifo 设 备 驱 动 的 poll() 函数 


locatie Unsigned ane gLapaliiro polb(sStruot tile *ILLp, poll table ~ wert) 


3 unsigned int mask = 0; 
Struct JgIODALILILO dev *dey = Inlp-^private data; 


4 
S 
6 mutex lock(&dev-»mutex);; 
7 
8 


poll wait(filp, &dev->r wait, wait); 
9 poll wait(filp, &dev-»w wait, wait); 


11 al (deve turrenb Lem Je 0) d 

12 mask |= POLLIN | POLLRDNORM; 

lo J 

Lo ii (dev=>current len l= GLOPALYIFO SIZE) 4 
16 mask |= POLLOUT | POLLWRNORM; 

17  ] 


l9 mutex unmbLockisdev-^omutex). 
20 return mask; 


注意 ， 要 把 globalfifo polli globalfifo fops 的 poll 成 员 : 


statio Const SLIUCL tide Operations globalriifo tops = 4 


spol. —cglobalfifo poll, 


8.3.3 ”在 用 户 空间 中 验证 globalfifo 设 备 的 轮 询 


编写 一 个 应 用 程序 globalfifo pollc， 以 用 select ©) 监控 globalfifo 的 可 读 写 状态 ， 这 个 程序 如 代码 清早 
8.10 所 示 。 


代码 清单 8.10 ”使 用 select 监 控 globalfifo 是 耕 可 非 阻 窜 读 、 写 的 应 用 程序 


li#define FIFO CLEAR 0x1 

2#define BUFFER LEN 20 

3void main (void) 

4{ 

9. IUE. La; Time 

6 char rd ch[BUFFER LEN]; 

7 fd set rfds, wfds; /* 读 / 写 文件 描述 符 集 */ 


9 /* 以 非 阻塞 方式 打开 /dev/9globalfifo 设 备 文件 */ 
10 fd = open("/dev/globalfifo", O RDONLY | O NONBLOCK); 


ll ait (fd t= —L) 4 

12 /* FIFO#O */ 

123 DI (QXoocblitd, FIFO CLEAR; 0) < 0) 

14 pristr(i"broocLl command, farleoum")3j 

Pu 

16 while (1) { 

17 FD ZERO (&rfds) ; 

18 FD ZERO (&wfds) ; 

19 FD SET(fd, &rfds); 

20 FD SET(fd, &wfds); 

21 

22 select (fd + 1, &rtds, &wrds, NULL; NULL); 
2 /* 数据 可 获得 */ 

24 1X {ED Loon Dd, Tetas),) 

2. printf("Poll monitor:can be read\n") ; 
26 /* 数据 网 写 做 */ 

21 if (FD ISSET(fd, &wfds)) 

20 Srintf ("Poll monitor?can be written \n"); 
29 } 

30 } else { 

31 printf ("Device open failure\n"); 

32 ] 

33} 


在 运行 时 可 看 到 ， 当 没有 任何 输入 ， 即 FIFO 为 至 时 ， 程 序 不 断 地 输出 Poll monitor: can be written, “4 
通过 echo 回 /dewglobalfifo 写 入 一 些 数据 后 ， 将 输出 Poll monitor: can be read 和 Poll monitor: can be written, 
如 果 不 断 地 通过 echo 同 /dewglobalfifo 写 入 数据 百人 至 与 满 FIFO， 则 发 现 pollmonitor 程 序 将 只 输出 Poll 
monitor: can beread。 对 于 globalfifo 而 言 ， 不 会 出 现 既 不 能 谈 ， 又 不 能 与 的 情况 。 


编写 一 个 应 用 程序 globalfifo epoll.c， 以 用 epoll 监 控 globalfifo 的 可 读 状 态 ， 这 个 程序 如 代码 清早 8.11 所 


示 。 
代码 清单 8.11 ”使 用 epoll 监 控 globalfifo 是 否 可 非 阻塞 读 的 应 用 程序 


1#define ELEO CIBEAR 0x1 
2#define BUFFER IN 20 
3void main (void) 


41 

> Zn es 

6 

7 fd = open("/dev/globalfifo", O RDONLY | O NONBLOCK); 
8 if (fd != -1) { 

9 Struot epoll event ev globalflbo; 
10 int err; 
LL int epid? 


d DE "(LOG CEO, ESL CLEAR» OD 20) 


14 printf('cooGtl command failed) 

to 

16 SDpId = CPOLL Crearvetl); 

1.7 if (epfd < 0) 1 

18 perror("epoll create(Q 7) 

1 return; 

20 } 

Z4 

PAP, bzero(sev globalLrroy S:zeol(strucut epoll EVEN)? 
AS ev globaltrrto.events — EPOLLAN | EPOLLPRI; 

24 

29 erm = poll cultepro, bPOhh ULL ADD, td, -xevcglobaltrtio)y 
26 prt Herr < 0y 4 

2 persor(c'epodl ct IMIS 

20 return; 

2.9 } 

30 erp epobLl wart(éepid, kev Globali rio; dy L90077 
3 if (err < 0) { 

32 Perron SPOLL Wert IT 

33 ) else if (err == 0) { 

34 Prince ("No data input in FIFO Within i5 seconds. \n")% 
35 ) else { 

36 Griner (TFIO aS not Empty nT s 

37 } 

38 err -epoLloOLtLteproy EPLL CIL DEL- Tay xev goobsbrrzro) 
39 if (err < O0) 

40 Perron ("epo COLLUM 

41 } else { 

42 printt("Device open far lure\n"™); 

43 } 

44} 


上 述 程序 第 2$ 行 epoll ctl Cepfd, EPOLL CTL ADD, fd, &ev globalfifo〉 将 globalfifo 对 应 的 和 加 入 到 
STENT A, B23 EDT SE, FESO REIT SERE, A ISPOA RCA A S/dev/globalfifo, 127E F] 
印 No data input in FIFO within 1Sseconds， 售 则 程序 会 打印 FIFO is not empty. 


阻 堵 与 非 阻 奢 访 问 是 IO 操作 的 两 种 不 同 模式 ， 前 者 在 暂时 不 可 进行 IO 操作 时 会 让 进程 睡 具 ， 后 者 则 
人 不然。 


在 设备 驱动 中 阻塞 IO 一 般 基 于 等 待 队列 或 者 基于 等 待 队列 的 其 他 Linux 内 核 API 来 实现 ， 等 待 队列 可 
用 于 同步 驱动 中 事件 发 生 的 先后 顺序 。 使 用 非 阻塞 IO 的 应 用 程序 也 可 借助 轮 询 函 数 来 查询 设备 是 否 能 立 
即 被 访问 ， 用 户 空间 调用 select O . poll O 或 者 epoll 接 口 ， 设 备 驱 动 提供 poll O 函数 。 设 备 驱 动 的 
poll O 本 身 不 会 阻塞 ， 但 是 与 pol © ~ selet €) 和 epoll 相 关 的 系统 调用 则 会 阻塞 地 等 待 至 少 一 个 文件 
描述 符 集合 可 访问 或 超时 。 


第 9 音 ”Linux 设 备 驱 动 中 的 异步 通知 与 开 步 JO 
本 章 导 读 


在 设备 驱动 中 使 用 异步 通知 可 以 使 得 在 进行 对 设备 的 访问 时 ， 由 驱动 主动 通知 应 用 程序 进行 访问 。 这 
样 ， 使 用 非 阻 皮 WO 的 应 用 程序 无 须 轮 询 设备 是 人 否 可 访问 ， 而 阻 到 访 问 也 可 以 被 类 似 “ 中 断 ”* 的 异步 通知 所 
取代 。 


除了 异步 通知 以 外 ， 应 用 还 可 以 在 发 起 IO 请 求 后 ， 立 即 返 回 。 之 后 ， 册 得 询 IO 完 成 情况 ， 或 者 IO 完 
成 后 被 调 回 。 这 个 过 程 叫 作 措 步 W/O。 


9.1 节 讲解 了 异步 通知 的 概念 与 作用 。 
9.2 下 讲解 了 Linux 有 天 步 通知 的 编程 方法 。 
9.3 节 给 出 了 增加 异步 通知 的 globalfifo 驱 动 及 其 在 用 户 空间 的 验证 。 


9.4 廊 则 讲解 了 Linux 基 于 C 库 的 弄 步 WO 和 内 核 本 里 异步 WO 的 用 尸 空间 编程 接口 ， 以 及 驱动 如 何 支 持 
AIO. 


9.1 异步 通知 的 概念 与 作用 


了 咀 窗 与 非 阻 暑 访问 、poll()〉 孙 数据 供 了 较 好 的 解决 设备 访问 的 机 制 ， 但 是 如 果 有 了 弄 步 通知 ， 整 僚 
机 制 则 更 加 完整 了 。 


异步 通知 的 意思 是 : 一 旦 设备 就 绪 ， 则 主动 通知 应 用 程序 ， 这 样 应 用 程序 根本 就 不 需要 查询 设备 状 
态 ， 这 一 点 非常 类 似 于 硬件 上 “中 断 ” 的 概念 ， 比 较 准 确 的 称谓 是 “信号 驱动 的 异步 JO”。 信 号 是 在 软件 层 
次 上 对 中 断 机 制 的 一 种 模拟 ， 在 原理 上 ， 一 个 进程 收 到 一 个 信号 与 处 理 器 收 到 一 个 中 断 请 求 可 以 说 是 一 样 
的 。 信 和 号 是 异步 的 ， 一 个 进程 不 必 通 过 任何 操作 来 等 待 信号 的 到 达 ， 事 实 上 ， 进 程 也 不 知道 信号 到 底 什 么 
时 候 到 过 。 


上 昌 答 WO 意味 看 一 卫 等 每 设备 可 访问 后 冉 访问 ， 非 阻 瑟 WO 中 使 用 poll(〉 RREA WAEN V 
问 ， 而 异步 通知 则 意味 看 设备 通知 用 户 目 身 可 访问 ， 之 后 用 户 再 进行 IO 处理 。 由 此 可 见 ， 这 几 种 IO 方式 
可 以 相互 补充 。 

9.12 JI f BH2EUO, 25 eig) 3EPH SEU Ox 4 T SIGION E ZE 38 ACER TR] 5 Je IF E ER] AP Fl « 


T 资源 可 获得 








用 户 空 间 


系统 调用 













| 唤醒 唤醒 -唤醒 _ 返回 | 
1 Em cA Lia m NE 1 
ET J:2rn» 
l | 
资源 状态 变更 资源 状态 变更 | 资源 
| I 1 I “7 
资源 资源 | 可 获得 
ARE R 
不 可 获得 可 获得 | 
阻塞 IO | 1EBHAE TE TL/O | 异步 通知 


图 9.1 阻塞、 结合 轮 询 的 非 阻 杜 O 和 异步 通知 的 区 别 


这 里 要 强调 的 和 是: PAGE. JEIEN, HAMAR ALA, POR S TAL EN Dp se EEX FE 
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9.21 Linux 信 号 


使 用 信号 进行 进程 间 通 信 〈IPC) 是 UNIX 中 的 一 种 传统 机 制 ，Linux 也 文 持 这 种 机 制 。 在 Linux 中 ， 腊 


步 通知 使 用 信号 来 实现 ，Linux 中 可 用 的 信号 及 其 定义 如 表 9.1 所 示 。 


表 9.1 Linux 信 号 及 其 定义 


CES — n & x 
SIGHUP 挂 起 
SIGINT 终端 中 断 
SIGQUIT 终端 退出 
SIGILL 无 效 命令 
SIGTRAP 跟踪 陷阱 
SIGIOT || 8 | | IOT 陷阱 
SIGFPE 浮 点 异常 
SIGKILL 强行 终止 (不 能 被 捕获 或 忽略 ) 
SIGUSRI 用 户 定义 的 信号 
SIGSEGV 无 效 的 内 存 段 处 理 
SIGUSR2 用 户 定义 的 信号 2 
SIGPIPE 站 关闭 管道 的 写 操作 已 经 发 生 
SIGALRM 计时 器 到 其 
SIGTERM 终止 

(ZÈ ) 
a Ta —— x 
SIGSTKFLT 堆栈 错误 
SIGCHLD 子 进程 已 经 停止 或 退出 
SIGCONT 如 果 停 止 了 ， 继 续 执行 
SIGSTOP 停止 执行 (不 能 被 捕获 或 忽略 ) 
SIGTSTP 终端 停止 信号 
SIGTTIN 后 台 进程 需要 从 终端 读 取 输 入 
SIGTTOU 后 台 进 各 需要 向 从 终端 写 出 
SIGURG 急 的 套 接 字 事件 
SIGXCPU LR TERR CPU 分 页 的 村 
SIGXFSZ 文件 尺寸 超额 
SIGVTALRM 虚拟 时 钟 信 号 
SIGPROF EN E 号 描述 
SIGWINCH 窗口 尺寸 变化 
SIGPWR d 重启 


除了 SIGSTOP 和 SIGKILL 两 个 信 


号外 ， 进 程 能 够 忽略 或 捕获 其 他 的 全 部 信号 。 一 个 


写 被 捕获 的 意思 


是 当 一 个 信号 到 达 时 有 相应 的 代 公 处 理 它 。 如 来 一 个 信号 没有 被 这 个 进程 所 捕 绪 ， 内 核 将 采用 扶 认 行为 处 


TM 


9.2.2 ”信号 的 接收 
在 用 户 程序 中 ， 为 了 捕获 信和 号， 可 以 使 用 signal O 函数 来 设置 对 应 信号 的 处 理 函 数 : 
a E a o 
该 函数 原型 较 难 理解 ， 它 可 以 分 解 为 : 


Cypeder void (*sighandler t) (anv); 
sighandler t signal(int signum, sighandler t handler)); 


ATSA E sm. S—TS34uU BEL XIBU BITS S ELIT AER PLZ, AANSIG IGN, KIRK 
HS: 在 为 SIG DFL, Xézns AH] AREAS ZI AGH y: GAARA Bax XHJESAA WMS SR. VE 
图 数 将 被 执行 。 

如 采 Signal C) 调用 成 功 ， 它 返回 最 后 一 次 为 信号 Signum 比 定 的 处 理 函 数 的 handler 住 ， 和 失败 则 返回 
SIG ERR. 

在 进程 执行 时 ， 按 下 “Ctrlt+C” 将 同 其 发 出 SIGINT 人 信号， 正在 运行 Kill 的 进程 将 问 其 友 出 SIGTERM 信 
号 ， 代 三 清单 9.1 的 进程 可 捕获 这 两 个 信 志 并 输出 信和 号令。 


代码 清单 9.1 signal O Haka s Yum 


void: sigterm handler(int signo) 

ZA 

3 printf("Have caught sig N.O. %d\n", signo); 
4  exit(0); 

2 

6 

7]int main(void) 

9  Srgnal(ioIlGlNT, Sigterm handler); 

10  signal(SIGIERM, sigterm handler); 

11 while(1); 


13 return 0; 


be f signal O ei Bb, sigaction () 函数 可 用 于 改变 进程 接收 到 特定 信号 后 的 行为 ， 它 的 原型 为 : 


int Srgactroni(inut Slonmnum Const Struct SIgactlon act. Striet ergaction *oLgdact))3 


Pope 一 


该 函数 的 第 一 个 参数 为 信号 的 值 ， 可 以 是 除 SIGKILL 及 SIGSTOP 外 的 任何 一 个 特定 有 效 的 信号 。 第 二 
个 参数 是 指向 结构 体 sigaction 的 一 个 实例 的 指针 ， 在 结构 体 sigaction 的 实例 中 ， 指 定 了 对 特定 信号 的 处 理 
图 数 ， 若 为 室 ， 则 进程 会 以 缺 省 方式 对 信号 处 理 ， 第 三 个 参数 oldact 指 向 的 对 象 用 来 保存 原来 对 相应 信和 号 
的 处 理 函 数 ， 可 指定 oldact 为 NULL。 如 采 把 第 二 、 第 三 个 参数 都 设 为 NULL， 那 么 该 函数 可 用 于 检 得 信和 号 


的 有 效 性 。 


先 来 看 一 个 使 用 信号 实现 异步 通知 的 例子 ， 过 signal (SIGIO，input handler) 对 标准 输入 文件 摘 
述 从 STDIN_FILENO 局 动 信号 机 制 。 用 户 输 入 后 ， 应 用 程序 将 接收 到 SIGIO 信 和 号， 其 处 理 函 数 
input_handler O 将 被 调用 ， 如 代码 清单 9.2 所 示 。 


代码 清单 9.2 ”使 用 信和 写实 现 寞 步 通 知 的 应 用 程序 实例 


l#include <sys/types.h> 
2#include <sys/stat.h> 
3#include <stdio.h> 
A#include <fcntl.h> 
5#include <signal.h> 
6#include <unistd.h> 
7#define MAX LEN 100 

8void input handler(int num) 


10 char data[MAX LEN]; 
ll ant len; 


13  /* 读 取 并 输出 STDIN FILENO 上 的 输入 */ 
14 len = read(STDIN FILENO, &data, MAX LEN); 


15 data[len] = 0; 

16 printf("input available:%Ss\n", data); 
L73 

18 

19main () 

201 

21 int oflags; 

2a 


23 /* 启动 信号 驱动 机 制 */ 

24 signal(SIGIO, input handler); 

29  fOntl(STDIN ELLENO, E SEIOWN, getpidc(); 

20. Oflags = TIOntlLliorDIN FIUENO, E GEDIEh); 

Zt RUN ELBEENO, F SELEh, orlags- | FASYNC); 





29 /* 最 后 进入 一 个 死 循 环 ， 仅 为 保持 进程 不 终止 ， 如 果 程 序 中 
30 没有 这 个 死 循 会 立即 执行 完毕 */ 
31 while (1); 


述 代 个 24 行 为 SIGIO 信 号 安装 input handler O 作为 处 理 函 数 ， 第 25 行 设置 本 进程 为 
STDIN _ FILENO 文 件 的 拥有 者 ， 没 有 这 一 步 ， 内 核 不 会 知道 应 该 将 信号 及 给 哪个 进程 。 而 为 了 局 用 并 步 通 
知 机 制 ， 还 需 对 设备 设置 FASYNC 标 志 ， 第 26 行 、27 行 代码 可 实现 此 目的 。 整 个 程序 的 执行 效果 如 下 : 


[root@localhost driver study]# ./signal test 


I am Chinese. -> 用 户 输 入 
input available: I am Chinese. -> signal test 程 序 打印 
I love Linux driver. => MPRA 
input available: I love Linux driver. -> signal test 程 序 打印 


从 中 可 以 看 出 ， 当 用 户 和 输入 一 串 字 符 后 ， 标 准 输入 设备 释放 SIGIO 信 号 ， 这 个 信号 “中 断 ? 与 驱使 对 应 
的 应 用 程序 中 的 input handler O 得 以 执行 ， 并 将 用 户 输入 显示 出 来 。 


由 此 可 见 ， 为 了 能 在 用 户 空 间 中 处理 一 个 设备 释放 有 的 信 写 ， 它 必须 完成 3 项 工作 。 


1) 通过 F_SETOWN 10 控制 命 令 设 置 设备 文件 的 拥有 者 为 本 进程 ， 这 样 从 设备 驱动 友 出 的 信 坪 才能 伞 
本 进程 接收 到 。 


2) 通过 F SETFL IO 控制 命令 放置 设备 文件 以 文 持 FASYNC， 即 异步 通知 模式 。 


3) 通过 signal O RAE Bei s MS s ABE PR AC. 


9.2.3 ”信号 的 释放 


在 设备 驱动 和 应 用 程序 的 异步 通知 交互 中 ， 仅 仅 在 应 用 程序 端 捕获 信号 是 不 够 的 ， 因 为 信号 的 源头 在 
设备 驱动 端 。 因 此 ， 应 该 在 合适 的 时 机 让 设备 驱动 释放 信号 ， 在 设备 驱动 程序 中 增加 信号 释放 的 相关 代 
m. 


73 SEW ESCAPE AL tl], SKE Pe RF 


1) 支持 F SETOWN 命 令 ， 能 在 这 个 控制 命令 处 理 中 设置 flp->f_ owner 为 对 应 进程 ID 。 不 过 此 项 工作 
己 由 内 核 完 成 ， 设 备 张 动 无 须 处 理 。 


2) 支持 F_SETFL 命 令 的 处 理 ， 每 当 FASYNC 标 志 改 变 时 ， 了 驱动 程序 中 的 fasync() 函数 将 得 以 执行 
因此 ， 驱 动 中 应 该 实现 fasync〈() RAA. 


3) 在 设备 资源 可 获得 时 ， 调 用 Kill fasync O 函数 激发 相应 的 信号 


驱动 中 的 上 述 3 项 工作 和 应 用 程序 中 的 3 项 工作 是 一 一 对 应 的 ， 图 9.2 所 示 为 卉 步 通 知 处 理 过 程 中 用 三 
空间 和 设备 驱动 的 交互 。 


signal () 绑 定 


fentl (fd, F_ SETOWN, getpid ()) fentl (fd, F_GETFL) [Coe 信 | 信号 处 理 函 数 | l 


内 核 设置 filp- 2f. owner 设备 驱动 fasync () 函数 资源 可 获得 





图 9.2 ”异步 通知 中 设备 驱动 和 寞 步 明 知 的 交互 


设备 驱动 中 异步 明知 编程 比较 简单， 主要 用 到 一 项 数据 结构 和 两 个 函数 。 数 据 结构 是 fasync_struct 缩 
FAVS, PAS ER BST Fill ze 


1) 处 理 FASYNC 标 志 变 更 的 函数 。 


Ln acyic helper (int rd, Sstrucc 二 ER ~ia); 


2) PERU H HI ee av 


volo kill tasyne(Struct Tasync struct La, Int Sig, int band); 


和 其 他 的 设备 驱动 一 样 ， 将 fasync_struct 结 构 体 指针 帮 在 设备 结构 体 中 仍然 古 最 佳 选择 ， 代 人 码 消 单 9.3 
给 出 了 文 持 异步 通知 的 设备 结构 体 模 板 。 


代码 清单 9.3” 文 持 异 步 通知 的 说 备 结构 体 模 板 


lstruct Xxx dev i1 

2 struct cdev cdev; /* cdev 结 构 体 */ 
3 T^ 

4 Struct. fasyne struct *asyno queue; /* 异步 结构 体 指针 */ 
2]; 


在 设 备 驱 动 的 fasync O PRIA, Hom fa FZ RAI BABU AK fasync. struct TJ STR ET A TA 


针 作 为 第 4 个 参数 传 入 fasync helper O 函数 即 可 。 代 三 清 单 9.4 给 出 了 文 持 异 步 通知 的 设备 驱动 程序 
fasync () 函数 的 模板 。 


代码 清单 9.4， 文 持 异 步 通知 的 设备 驱动 fsync《〈) PEIUS 


二 
| 


> Bru xxx dev *dev = S1lp--prrvate data; 
4 return fasync heliper(fd, filp, mode, &dev-^async queue) ; 
5j 


在 设备 资源 可 以 获得 时 ， 应 该 调用 Kill fasync O 释放 SIGIO 信 号 。 在 可 谈 时 ， 第 3 个 参数 设置 为 


POLL IN， 在 可 写 时 ， 第 3 个 参数 设置 为 POLL OUT。 代 码 清单 9.5 给 出 了 释放 信号 的 范例 。 


从 异 


代码 清 单 9.5 ” 文 持 异步 通知 的 设备 驱动 信 号 释放 泡 例 


locatio S51l2e L Sc Weve (struct tite ~Il; Consl Char . user “bul, Size t GOUND 
2 Lori © "E DOS) 

21 

4 SLIUCL xxx dev “dey = ILps private dala}? 

S 。 

6 /* 产生 异步 读 信号 ar 

7 if (dev->async queue) 

8 kill fasync(&dev-»async queue, SIGIO, POLL IN); 

> 

10] 


最 后 ， 在 文件 关闭 时 ， 即 在 设备 张 动 的 release O 了 水 数 中 ， 应 调用 设备 驱动 的 fasync() 函数 将 文件 
异步 通知 的 列表 中 删除 。 代 码 清 单 9.5$ 给 出 了 文 持 异 步 通 知 的 设备 张 动 release ©) 函数 的 模板 。 


2V Us) 


代码 清单 9.6， 文 持 异 步 通 知 的 设备 豫 动 release O PU 


LStadt ie It 2x releases i ruce anode *1node, ‘Struce. file *fidp) 
| 

3 /* 将 文件 从 异步 通知 列表 中 删除 * / 

4 xxx Laeyne(-1, Tilp; 0), 

3 "e 

6 return 0; 

7] 


9.3 ” 文 持 异步 通知 的 globalfifo 驱 动 
9.3.1 ”在 globalfifo 驱 动 中 增加 和 寞 步 通 知 


自 完 ， 参 考 代 人 码 清和 蛙 9.3， 应 该 将 弄 步 结构 体 指 针 冻 加 a 到 globalfifo_ dev 设备 结构 体内 ， 如 代码 消 蛙 9.7 
BIA. 


代码 清单 9.7 增加 异步 通知 后 的 globalfifo 设 备 结构 体 


LSteuct globpeltito dev 1 

struct cdev cdev; 

unsigned int current len; 

unsigned char mem[GLOBALFIFO SIZE]; 
struct mutex mutex? 

wait queue head t r wait; 

wait queue head t w wait; 

SLruct casyno Struct ^asyno queue; 


(O CO —1 O) O1 d» CO ND 


参考 代码 清单 9.4 的 fasync O 图 数 模板 ，globalfifo 的 这 个 函数 如 代 伍 清单 9.8 所 示 。 
代码 清单 9.8” 文 持 异 步 通 知 的 globalfifo 设 备 驱 动 fasync ©) 函数 


locatio nnb globalbllio Tasynciine Id, SCPUOCD tite VLLL, Ido mode) 


Z1 

3 Struct glODSGLILiro dev “dev = IIIp-cprivagte data; 

4 return rasyno Belperi(fgo, ilp; mode, &devy--asyne queue); 
2j 


在 globalfifo 设 备 修正 确 写 入 之 后 ， 它 变 得 可 读 ， 这 个 时 候 驱 动 应 释放 SIGIO 信 握 ， 以 便 应 用 程序 捕 


获 ， 代 人 码 清单 9.9 给 出 了 文 持 异步 通知 的 globalfifo 设 备 驱动 的 写 函 数 。 
代码 清单 9.9” 文 持 异 步 通 知 的 globalfifo 设 备 驱动 写 函 数 
Static Seize t globalLtilto wrzte(struct Tile *ILlp, const char User “bur, 
2 Sizo © COUN, TOIL C apos) 
24 


4 Struct globalfrfo dev. ^dey e ILilp--privgte data; 
5 int ret; 

6 DECLARE WAITQUEUE(wait, current); 

7 

8 


mutex. Lock(&deveomubex) 
9 add wait queue(&dev-»w wait, &wait); 


1:0 

11 while (dev->current len == GLOBALFIFO SIZE) | 
1:7 if (filp->f flags & U NONBLOCK) | 

13 ret = -EAGAIN; 

14 oto OU; 

1:5 } 

16 - SGL Current. starve (Tack. LNIBBRBUPLIBDRE); 
17 

18 mutex unlock(&dev-»mutex); 

19 

20 schedule (); 

21 if (signal pending(current)) 1 

22 ret = -—-LERESIARTSYSI 

23 goto oüz; 

24 } 

25 

26 mutex lock(&dev-»mutex); 


28 
29- AL (Count 2: (GBOBAHEIPO.DOIAB.e--devyescgLrent Jen) 


30 count = GHOBAEELEO S.I25-Ueve-curremut en; 

3L 

325 dU (Copy Trom usestdev-cmem-edeve^gubspenc-len, Ju QOIS) d 
33 ret = -EFAULT; 

34 GOCO OUE? 

39 } else { 

36 deve-scurrenc Len wc ccOBnSt; 

3.1 Ppranvck( KERN. INFO: "wratten od bytes(s),current len:%d\n", court, 
38 dove Oe Sema 

39 

40 wake, up.interruptible(&dev--^r wait); 

41 

42 LE (dev-^asynce queue). d 

43 kill Lasync(éedev-c»asyuc queue, SIGlO;, POLL. IN) 
4 4 Printk (KERN DEBUG "os KILE SIGIOXn", Tune 7 
45 } 

46 

47 rot — Counc? 

48 } 

49 

SU Outs 

oL mutex: Unlock (sdev=-mutex); 

o2 GUT: 


53 remove wait queue (é&dev->w wait, &wait); 
g4- Set current stave (TACK RUNNING); 

S. FOCU rer. 

56) 


参考 代码 清单 9.6， 增 加 异步 通知 后 的 globalfifo 设 备 驱 动 的 release O 函数 中 需 调用 
globalfifo fasync〈) 函数 将 文件 从 异步 通知 列表 中 删除 ， 代 码 清 单 9.10 给 出 了 文 持 开 步 通知 的 
globalfifo release () PAZ. 


代码 清单 9.10 ”增加 和 措 步 通知 后 的 globalfifo 设 备 驱 动 release O 函数 


Isbcatro snc cgloDalLtrzbocrelease(istrucb node 7Inode,; SCUO Pile "FILD) 
Z3 

3° qlobsiLrro rasvneodel. TELL 0) 7 

4 return 0; 

2j 


9.3.2 ”在 用 户 空 间 中 验证 globalfife 的 异步 通知 


现在 ， 我 们 可 以 采用 与 代码 清单 9.2 类 似 的 方法 ， 编 写 一 个 在 用 户 空间 验证 globalfifo 异 步 通 知 的 程 
序 ， 这 个 程序 在 接收 到 由 globalfifo 发 出 的 信号 后 将 输出 信号 值 ， 如 代码 清单 9.11 所 示 。 


代码 清单 9.11 监控 globalfifo 异 步 通知 信号 的 应 用 程序 


ee 

Z1 

3 printf("receive a signal from globalfifo,signalnum:%d\n", signum); 
4l 

5 

6void main (void) 

T1 

o ant fd, oflags; 

9 fd = open("/dev/globalfifo", O RDWR, S IRUSR | S IWUSR); 


10 if (fd != -1) { 

11 signal(SIGIO, signalio handler); 
12 ontl (Io 5 SBIOWN, getpudtc)y 
Lo OLlags. = TOn CLI d; E SEDED). 

14 Lontli(fo. E SETEL, oflagse | FASYNC); 
2 while (1) { 

16 sleep(100); 

17 } 

18 } else { 

19 printi ("devica open fariluteiun"). 
20 } 

21) 


ZB B/kernel/drivers/globalfifo/ch9 Bl f CEA ZP XB AUITJglobalfifo3IX2/] EJ Ae fV R3 S 8.9.1 LT NL EE 
globalfifo testc 测 弃 程 序 ， 在 该 目录 运行 make 将 得 到 globalfifo.ko 和 globalfifo test. 


按照 与 第 8 章 相同 的 方法 加 载 新 的 globalfifp 设 备 驱动 并 创建 设备 文件 节点 ， 运 行 上 述 程序 ， 每 当 通 过 
echo 向 /dewglobalfifo 写 入 新 的 数据 时 ，signalio handler O 将 会 被 调用 : 


baohua@baohua-VirtualBox:~/develop/training/kernel/drivers/globalfifo/ch9S sudo su 
# ./globalfifo test& 


[1] .25251 
# echo 1 > /dev/globalfifo 
receive a signal from globalfifo,signalnum: 29 -> globalfifo 七 est 程序 打印 


# echo hello > /dev/globalfifo 
receive a signal from globalfifo,signalnum:29 -> globalfifo est 程序 打印 


9.4  LinuxX?zvI/O 


9.4.1 | AIO 概 念 与 GNU CAIO 


Linux 中 最 常用 的 输入 /输出 〈LILO) 模型 是 同步 WO。 在 这 个 模型 中 ， 当 请 求 发 出 之 后 ， 应 用 程序 就 会 
咀 寨 ， 直 到 请 求 满足 为 止 。 这 是 一 种 很 好 的 解决 方案 ， 调 用 应 用 程序 在 等 待 /O 请 求 完 成 时 不 需要 占用 
CPU。 但 是 在 许多 应 用 场景 中 ，LIO 请 求 可 能 需要 与 CPU 消耗 产生 交 妓 ， 以 充分 利用 CPU 和 IO 提高 吞吐 


儿 9.3 摘 给 了 有 弄 步 IO 的 时 序 ， 应 用 程序 及 起 IO 动作 后 ， 和 直接 开 始 执行 ， 并 不 等 待 O 结 束 ， 它 要 么 过 
一 段 时 间 来 查询 之 前 的 IO 请 求 完成 情况 ， 要 么 IO 请 求 完 成 了 会 自动 被 调用 与 IO 完成 绑 定 的 回调 函数 。 














用 户 空 间 应 用 
TI T2 
一 一 J 一 一 一 一 一 一 一 进行 其 他 的 操作 
异步 LO 请 求 
ee sr 
上 # 行 LO 操作 | puru 
' * 内 核 空 间 驱 动 或 者 
a) 库 内 线程 
Ti T2 
一 一 一 一 一 一 一 一 一 进行 其 他 的 操 大 一 > 用 户 空 间 应 用 
HAE VOW 查询 IO 完成 情况 
b) 内 核 空间 驱动 或 者 
库 内 线程 


图 9.3 ”异步 VO 的 时 厅 


Linux 的 AIO 有 多 种 实现 ， 其 中 一 种 实现 是 在 用 尸 空间 的 glibe 库 中 实现 的 ， 它 本 质 上 是 借用 了 多 线程 
模型 ， 用 开局 新 的 线程 以 同步 的 方法 来 做 TO， 新 的 AIO 辅 助 线程 与 发 起 AIO 的 线程 以 
pthread cond signal O) 的 形式 进行 线程 间 的 同步 。glibc 的 AIO 主 要 包括 如 下 函数 。 


l.aio read () 


aio read OO PRIA RY — TH XX] SCE FER FET FR RTE 2 TKS Seah n] LA EARP 
Tk. Brey, ERIE. aio read 函数 的 原型 如 下 : 


Eee 


aio read (O 函数 在 请 求 进行 排队 之 后 会 立即 返回 《尽管 谈 操 作 并 未 完成 )》 。 如 采 执 行 成 功 ， 返 回 但 
MAO; WRU, dRI[BMESLZJ-1. Jf Éernoll]f& - 


参数 aiocb (AIO I/O Control Block) £&dT e SRT Aa, URNAR ERAH 18d 
缓冲 区 。 在 产生 IO 完成 通知 时 ，aiocb 结 构 就 被 用 来 唯一 标识 所 完成 的 IO 操作 。 


2.aio write ©) 


aio_write O 图 效用 来 请 求 一 个 卉 步 与 操作 。 其 图 数 诛 型 如 下 : 


Int: Gro Wri cel SLEUCLC acxo0cb "arocbp-)7 


aio write O PRAIA, 3P HE BK C ZEABOHEBA 《成 功 时 返回 值 为 0， 和 失败 时 返回 人 为 -1， 
并 相应 地 人 设置 errno) 。 


3.aio error () 
aio error () 函数 和 被 用 来 确定 请 求 的 状态 。 其 原型 如 下 : 


LHt SEO Srrort Struct AOO “a1ocbp 23 


这 个 函数 可 以 返回 以 下 内 容 。 
EINPROGRESS: 说 明 请 求 尚 未 完成 。 
ECANCELED: 说 明 请 求 个 应 用 程序 取 疹 了。 
-1: 说 明 友 生 了 错误， 具体 错误 原因 由 errno 记 录 。 
4.aio return () 


异步 JJO 和 同步 阻塞 IO 方式 之 间 的 一 个 区 别 是 不 能 立即 访问 这 个 函数 的 返回 状态 ， 因 为 异步 IJO 并 没有 
阻塞 在 read O 调用 上 。 在 标准 的 同步 阻塞 read O 调用 中 ， 返 回 状态 是 在 该 函数 返回 时 提供 的 。 但 是 在 
异步 JO 中 ， 我 们 要 使 用 aio retum O 函数 。 这 个 函数 的 原型 如 下 : 


sign Struct dlach ^dql100DDp.);7 


只 有 在 aio_error O 调用 确定 请 求 已 经 完成 (可 能 成 功 ， 也 可 能 发 生 了 人 错误) 之后， 才 会 调用 这 个 也 
数 。aio return 〈) 的 返回 值 就 等 价 于 同步 情况 中 read O 或 write O 系统 调用 的 返回 值 〈 所 传输 的 字 节 数 
如 果 发 生 错 误 ， 人 返回 值 为 负数 ) 。 


代码 消 单 9.12 给 出 了 用 户 空 间 应 用 程序 进行 异步 读 操 作 的 一 个 例 程 ， 它 肖 先 打开 文件 ， 然 后 准备 aiocb 
结构 体 ， 之 后 调用 aio read (&my aiocb) 进行 提出 寞 步 恋 请 求 ， 当 aio_error (&my aiocb ) 
==EINPROGRESS， 即 操作 还 在 进行 中 时 ， 一 直 等 每 ， 结 束 后 退 过 aio return (&my aiocb ) 获得 返回 值 。 


NSIS 9.12 ”用 户 空 间 寞 步 读 例 程 


1 #include <aio.h> 

D. ouk 

3 Xr id; rer; 

4 struct alocb my Aloch; 
5 


6 Xd = GODOn("rLillebxt z U RDONLY) 7 
? at (td < 0) 
8 perror ("open"); 
9 
10/* 清 零 aiocb 结 构 体 */ 
小 GO arvoch; S1260. (Struct arobi]; 
12 
13/* 为 aiocb 请 求 分 配 数据 缓冲 区 */ 
Lamy De 


Toii (ny anocbgaro Du) 
16 perror ("malloc"); 
17 


18/* 初始 化 aiocp 的 成 员 */ 


ee 

ZUmy LOCD CODE = BUFSIZE; 

Zlmy aelocb.aro offset = 0r 

2 2 

Z239ret = alo: read(emy arocb); 

24if (ret < O0) 

25 EEC "aro read"); 

26 

2/lwhile (aio error(&my aiocb) == EINPROGRESS) 
20 Continue; 

29 

S01 CDL = dlo returnen? T0656)) = 0) 4 
31 /* 获得 异步 读 的 返回 值 */ 

32} else { 

33 /* ak; 分 析 errorno */ 

34} 


5.aio suspend () 


HP Ay DE aio suspend O rRZoEBHSEUS AEE, Bleep kscm Aik. wage A 
aiocb 引 用 列表 ， 其 中 任何 一 个 完成 都 会 导致 aio suspend O REl. aio suspend © 的 函数 原型 如 下 : 


Int Alo suspend( Const Struct eOobDD. "Const CDILSEtIIs 
int n, const struct timespec *timeout J); 


代码 清单 9.13 给 出 了 用 户 空 间 进 行 异 步 谈 操作 时 使 用 aio_suspend〈) RAHI. 
代码 清单 9.13 用户 空间 异步 IJO aio suspend O r&25cfs FH] AR RE 


lStruüecbt &xoct ^ODLISLCIMAR LIST] 

2/* 清 零 aioct 结 构 体 链表 */ 

3bzero( (char *)cblist, sizeof(cblist) ); 
A/* 将 一 个 或 更 多 的 aiocb 放 入 aioct 的 结构 体 链 表 中 */ 
ocblist[U] = amy axocb; 

oret — aio read(&my aiocb); 

Tret = alio suspend(ocblist, MAX LIST, NULL J; 


当然 ， 在 glibc 实 现 的 AIO 中 ， 除 了 上 述 同步 的 等 待 方式 以 外 ， 也 可 以 使 用 信号 或 者 回调 机 制 来 异步 地 
标明 AIO 的 完成 。 


6.aio cancel () 
aio cancel OO PAZ G6 YE HL JP BUB] SAP A eR ET EN PA /Ote ok. ARW F: 


ine usó Cancel (ine Ld, Struce atoch ^alotbp); 


RGA, HP mite Pc Pai i Maiocbis tf. WRI PRIDE Y AARP eh BL 


束 会 返回 AIO_CANCELED。 如 末 请 求 完 成 了 了 ， 这 个 函数 融会 返回 AIO_ NOTCANCELED. 


要 取消 对 条 个 给 定 文 件 搬 述 从 的 所 有 请 求 ， 用 户 害 要 提供 这 个 文件 的 舞 述 从 ， 并 将 aiocbp 参 数 设 置 为 


NULL。 如 果 所 有 的 请 求 都 取消 了 了， 这 个 函数 束 会 返回 AIO CANCELED; 如 果 人 至 少 有 一 个 请 求 没 有 被 取 
消 ， 那 么 这 个 函数 就 会 返回 AIO NOT CANCELED; 如 果 没 有 一 个 请 求 可 以 被 取消 ， 那 么 这 个 函数 就 会 


返回 AIO ALLDONE。 然 后， 可 以 使 用 aio error O 来 验证 每 个 AIO 请 求 ， 如 果 菏 请 求 已 经 个 取消 了 ， 那 
么 aio_error () 就 会 返回 -1， 并 有 日 errno 会 外 设置 为 ECANCELED。 


7.lio listio () 


lio listio CO 函数 可 用 于 同时 发 起 多 个 传输 。 这 个 函数 非 闸 壬 要 ， 它 使 得 用 户 可 以 在 一 个 系统 调用 中 
司 动 大 量 的 IO 操作 。1lio listio APIK Z JR n F: 


inte Lio InzSUIOT Int mode, Struct, a1ocb. YLISTI; Dt nent, SCrucc S1gevent *sig )> 


mode 参 数 可 以 是 LIO WAIT 或 LIO NOWAIT MN 用 ， 百 到 所 有 的 IO 都 完成 为 
止 。 但 是 奢 是 LIO_NOWAIT 模 型， 在 LO 操作 进行 排队 之 后 ， 访 函数 束 会 运 回 。list 是 一 个 aiocb 引 用 的 列 
了 肥大 元 系 的 个 数 是 由 nent 定 义 的 。 如 果 list 的 元 系 为 NULL，lio listio O 会 将 其 忽略 。 


^" 


代码 清单 9.14 给 出 了 用 户 空间 进行 异步 /O 操 作 时 使 用 lio listio O 函数 的 例子 。 


代码 清单 9.14 用户 空 间 异 步 JO lio listio O 函数 使 用 例 程 


]struct a1o0c0D aiocbl, 8100D2; 

ZSLPUOCL aloch *LisucDMAX LIST]; 

ug ues 

A/* 准备 第 一 个 acD */ 

Deb alg tildes = id; 

ba CCbL.a10 DUI = malloot BUERSLAZETL 27 
TJaliocbi.aro nbytes = BUESIZE; 
OaloODLJaulO OLEISOL = nert OLLSSU 


9aiocbl.aio lio opcode = LIO READ; /* 异步 读 操 作 * / 
10... /* 准备 多 个 aiocpb */ 
llbzerot( (Ghar *) list, Srzeori(lrst) )3 
12 
13/* 将 aiocb 填 入 链表 * / 
141ist[0] = &aiocbl1; 
15list[1] = &aiocb2; 
IETEN 
l7ret = lio listio( LIO WAIT, list, MAX LIST, NULL );  /* 发 起 大 量 I/O 操 作 * / 


上 述 代 人 码 第 9 行 中 ， 因 为 是 进行 异步 读 操 作 ， 所 以 操作 码 为 LIO READ， 对 于 写 操 作 来 说 ， 应 该 使 用 
LIO WRITE 作 为 操作 人 码 ， 而 LIO NOP 意 味 着 空 操作 。 


P TR http://www.gnu.org/software/libc/manual/html node/Asynchronous-I 002fO.html 包 含 了 AIO 库 函数 的 
详细 信息 。 


94.2 Linux 内 核 AIO 与 libaio 


Linux AIO 也 可 以 由 内 核 空间 实现 ， 异 步 /O 是 Linux 2.6 以 后 版 本 内 核 的 一 个 标准 特性 。 对 于 块 设备 而 
言 ，AIO 可 以 一 次 性 发 出 大 量 的 read/write 调 用 并 且 通 过 通用 块 层 的 IO 调度 来 获得 更 好 的 性 能 ， 用 户 程序 
也 可 以 减少 过 多 的 同步 负载 ， 还 可 以 在 业务 进 辑 中 更 灵活 地 进行 并 友 控 制 和 负载 均衡 。 相 较 于 glibc 的 用 户 
空间 多 线程 同步 等 实现 也 减少 了 线程 的 负载 和 上 下 文 切 换 等 。 对 于 网 络 设备 而 言 ， 在 socket 层 面 上 ， 也 可 
以 使 用 AIO， 让 CPU 和 网 卡 的 收发 动作 元 分 区 告 以 改善 厨 吐 性 能 。 选 择 正 确 的 IO 模型 对 系统 性 能 的 影响 很 
大 ， 有 兴趣 的 读者 可 以 参阅 著名 的 C10K 问 题 ( 指 的 是 服务 右 同 时 支持 成 和 干 上 万 个 客户 端的 问题 ， 详 见 
网 址 http://www.kegel.conyc10k.html。 


在 用 尸 空 间 中 ， 我 们 一 般 要 结合 libaio 来 进行 内 核 AIO 的 系统 调用 。 内 核 AIO 提 供 的 系统 调用 主要 包 
丘 : 


int LO. Eee Naxevents, To Conuext © *cCtxp); 
Ene: LO deS troy (10 COn Lor sb O)? 
int do Submrtiio OODLEXE © OLX, dong Di; Struct XI0€D *L9sSLlJ)3 
In XO Cancel:(10 OONLSXL © CCX, SUIUCL 2005: LOCO; SLErUcL 10 event Tev); 
Ime, IO cgetevelnts(ro Con leat L crix 1d, long min nr, long mv, struct I0 event “evento; 
struct timespec *timeout); 
void -10 Gel callbeck(Sturuce T1060 ^rxoob, 10 Callback L CD)? 
void LO Prep DWrLLe(Struce IOCU “20Cb, INC Td; void *but, Size L count, Jong Long ODLLSSUO,); 
VOLO: 10 prep presd(sStruct 100b ^L00D, InG Id, vord Dui; size | COUNL, Jong long OIPÍLSet)S 
vold 10 prep NE 避让 本 2005 rocb, Sut idp CONSE SLCPOUCL X0Vec "0v, NL XIOVODb; 
LONG Long Oise); 
VOLO L0 prep pregQgv(isLruct. 1000 *10€b, ant 10, Conse, SEEUCE 10vec ^Llov. Tie XIOVOCHLD 
long long Offset); 


AIO 的 旋 与 请 求 都 用 io_submit O 下 及 。 下 及 六 通过 io prep pwrite © 和 io prep pread (2 生成 iocb 
WEE, Eio submit O 的 参数 。 这 个 络 构 体 指定 了 读 写 类 型 、 起 始 地 址 、 长 度 和 设备 标志 人 符 等 信 
思 。 读 写 请 求 下 及 之 后 ， 使 用 io_getevents O 函数 等 等 WO 完成 事件 。io_set callback O 则 可 设置 一 个 
AIO 完 成 的 回调 函数 。 


代码 清 蛙 9.15 演 示 了 一 个 人 简 捍 的 利用 libaio 辐 内 核 友 起 AIO 请 求 的 模版 。 访 程序 位 于 本 书 源 代 代 
的 /kernel/drivers/globalfifo/ch9/aior.c 下， 使 用 命令 gcc aiorc-o aior-laio 编 译 ， 运 行 时 带 1 个 文本 文件 路 径 作为 
参数 ， 该 程序 会 打印 该 文本 文件 前 4096 个 字 币 的 内 容 。 


代码 清单 9.1$ ”使 用 libaio 调 用 内 核 AIO 的 范例 


l#define GNU SOURCE /* O DIRECT. Ts not POSIX */ 
2#include <stdio.h> /* for pèrror() +7 
3#include <unistd.h> /* Tor syscall() 7 
4#include <fcntl.h> /* © RDWR * 7 

5#include <string.h> /* memset() */ 


6#include <inttypes.h> [T uintod e 7 
7#include <stdlib.h> 


8 

Odsinclude «libàio.h» 
10 
li¢detine BUF SIZE 4096 
12 


Point main(int argo, char **argy) 
14 { 


LD J OM Et CG GER "Us 

LG Gtrucb T6680. c5; 

Ld “Srnec, Och: Goss 

18 unsigned char “but; 

IO Serut Io cevenmb evens LLEI? 
20 EAG rec, 

zd. TAY SE 


22 

Z3 EE darge A 2) uf 

24 printf("the command formati. aior [FILE | \n") +; 
Zo exit(1); 

26 } 

2 


Zo, Xd eopemcsrogvrils-JQ--DWE. | “OUDIRECT) 7 
29: AF. ng-« 0) 41 


30 perror("open error"); 
od goto err; 

92. 4 

09 


34 /* Allocate aligned memory */ 
29. Let. = (posix Mena ron (vod SFF eop Llay (BUE EAE. L 
36° SEE. reL 3S) a 


Su perrori"posrx memal ron -tarled™)4 
38 goto errl; 

99 y 

AQ memsec (but, Oy: BUE SIZE T L7 

41 


42. Let = 10 Setup (128) &ctx)y 
Z3 wb. FEC SS Oy). 4 


44 PINCI IO- SLUDGE: D> SLrerron( I eL)? 
45 goto err2; 

46 ] 

47 


do, f* setup I/0.Gontrol block < 
439: TO prep pread(scb, tdr Dur BUE - S125» 0) 7 


30 

51 cbs[0] = &cb; 

DOG. NEL P XO SODDIDEDICLXS LE Cos)? 

53 if (ret !- 1) { 

54 if (ret < 0) { 

O9 攻克 
D6 ) else { 

97 Lprzntristderr, “could: not sumbrit IOS"); 
58 ) 

o9 goto err3; 

60 } 

61 


62 /* get the reply */ 
OS per I0 geusvents[cóNw Le wep sevens, NUE 
64 if (ret !- 1) { 


65 if (ret < 0) { 

66 Prnt Hao dgetevents eFrorqes. SUEOSITOLUSLOUHE 
67 } else { 

68 tprinti (stderr; “Could: not get Events" 

o ) 

FO goto err3; 

Jl  j 

72 if (events[O].res2 == 0) 1 

13 Primer os ie utis 

74 } else { 

vo printf("AIO error:$s", strerror(-events[0].res)); 
TG goto err3; 

TO sg 

18 

T9! NEED Aet 10 Cestroy (eux) .) x Uy 4 

80 PINCI LO deS rO Or Or y SlLPerror TE O 

ol goto err2; 

82 ] 

8 3 


84 free(buf); 
85 close(fd); 
86 return O0; 


87 

OO err: 

OF "ULL "QUOD no et (EE) 49) 

90 prrnorq ro cdestrovoerrorvosUs OTOL OCN Tre CI] 
91] err: 

92 free (buf); 

J EFFI? 

94 close(fd); 

dO oh an a 


96 return -1; 
97 } 


9.4.3 ”AIO 与 设备 驱动 


用 户 空间 调用 io_submit O 后 ， 对 应 于 用 户 传递 的 每 一 个 iocb 结 构 ， 内 核 会 生成 一 个 与 乙 对 应 的 kiocb 


结构 。file operations $2 3^ E; AIOJTH KA) V, va E 230: 


SSize © ("aro read) (SLrUucb Krocb. «100b Const Sslruct z0vec "10V. unsigned long 


Ar Segs, dOll t pos); 


SSIZO C ("320 Write) {Struct K:OCD "1000, CONnSLt Striet mOVec “oY unsigned 


long nr segs, Loft t pos); 


Lhe. (AsO ISyDo) (Struct krocb *L10Ccb, inc .datasyne)g 


io submit ©) 系统 调用 间接 引起 了 fle operations 中 的 aio read () 和 aio write O 的 调用 。 


在 早期 的 Linux 内 核 中 ，aio read O Maio write ©) 的 原型 是 : 


ci 有 


Size t Size; Lor © pos); 


goize L ("210 Wre) (seuructe: Koco *10Cb, Const Char *Dubrte5, 
Size L Count, Lore © OLiser); 


在 这 个 老 的 原型 里 ， 只 人 台 有 一 个 绥 剖 区 指针 ， 而 在 新 的 原型 中 ， 则 可 以 传递 一 个 同 量 iovec， 它 人 台 有 


BZIP X 2 VENE T https://Twn.net/Articles/170954/I] x} (Asynchronous I/O and vectored operations) 。 


AIO 一 般 由 内 核 空 间 的 通用 代 但 处 理 ， 对 于 其 说 备 和 网 络 说 备 而 言 ， 一 般 在 Linux 核 心 层 的 代码 已 经 


解决 。 字 符 设 备 驱 动 一 般 不 需要 实现 AIO 支 持 。Linux 内 核 中 对 字符 设备 驱动 实现 AIO 的 特例 包括 
drivers/charmem.c 里 实现 的 null、zero 等 ， 由 于 zero 这 样 的 虚拟 设备 其 实 也 不 存在 在 要 去 谈 的 时 候 恋 不 到 东 
西 的 情况 ， 所 以 aio read zero O 本 质 上 也 不 包含 异步 操作 ， 不 过 从 代码 清单 9.16 我 们 可 以 一 笑 iovec 的 全 


9e 


代码 清单 9.16 zero 设备 的 aio_ read 实现 


Eee aeee Const SLEUCU Iove *10V, 


5 unsigned long nf segs, Iorr.t pos) 
4 Size t written = 0; 

5 unsigned long 1i; 

6 Size L Pec; 

7 

8 tor u s= U7 i s nr Sego; 177) 4 

9 ret = read Zero(1oCcb=-ki ILIPp; TOVIL|s LO base, 1OV i) mov en, 
10 &pos); 
11 if (ret < 0) 
12 break; 
13 written += ret; 
14 } 
16 return written written : -EFAULT; 


本 章 主 要 讲述 了 Linux 中 的 异步 WO， 寞 步 /O 可 以 使 得 应 用 程序 在 等 等 LO 操作 的 同时 进行 其 他 操作 。 


使 用 信号 可 以 实现 设备 驱动 与 用 尸 程 友之 则 的 异步 通知 ， 总 体 而 言 ， 设 备 驱 动 和 用 户 容 间 要 分 别 完 成 
3 项 对 应 的 工作 ， 用 户 空 间 设 置 文件 的 拥有 者 、FASYNC 标 志 及 捕获 信号 ， 内 核 空 间 响 应 对 文件 的 拥有 
者 、FASYNC 标 志 的 设置 并 在 资源 可 获得 时 释放 信 坊 。 


Linux 2.6 以 后 的 内 核 包 含 对 AIO 的 支持 ， 它 为 用 户 空 间 提供 了 统一 的 异步 VO 接口 。 男 外 ，glibc 也 提供 
了 一 个 不 依赖 于 内 核 的 用 户 空 间 的 AIO 支 持 。 


第 10 章 ”中 上 断 与 时 钟 
本 章 导读 


本 和 章 主 要 讲解 Linux 设 备 张 动 编程 中 的 中 断 与 定时 塔 处 理 。 由 于 中 断 服 务 程序 的 执行 并 不 存在 村 进程 
上 上 下文 中， 所 以 要 求 中 断 服 务 程序 的 时 间 要 尽量 短 。 因 此 ，Linux 在 中 断 处 理 中 引入 了 项 半 部 和 底 半 部 分 
离 有 的 机 制 。 改 外， 内 核对 时 钟 的 处 理 也 采用 中 断 方式 ， 而 内 核 软件 定时 右 最 终 依赖 于 时 钟 中 靳 。 


10.1 节 讲解 中 汤 和 定时 器 的 概念 及 处 理 流程 。 
10.2 节 讲解 Linux 中 断 处 理 程序 的 架构 ， 以 及 项 半 部 、 展 半 部 之 间 的 关系 。 


10.3 而 讲解 Linux 中 断 编 程 的 方法 ， 小 及 申请 和 释放 中 断 、 使 能 和 屏 责 中 断 以 及 中 断 撒 半 部 tasklet、 工 
作 队 列 、 软 中 靳 机 制 和 threaded irq. 


10.4 区 讲解 多 个 设备 共有 再 同一 个 中 断 亏 时 的 中 断 处 理 过 程 。 


10.5 放 和 10.6 直 分 别 讲 解 Linux 设 备 张 动 编程 中 定时 带 的 编程 以 及 凡 核 延 时 的 方法 。 


10.1. PTS ERY n 


Aria Brie JRCPUTESATTTEHP nite A, UE SRE ASF a EE, CPU A FE ET SA 
ÍT, FERMERE, AeIE SEHE Je SCAB E RAET A P TII] E SE A A 


根据 中 断 的 来 源 ， 中 断 可 分 为 内 部 中 断 和 外 部 中 断 ， 内 部 中 断 的 中 断 源 来 和 目 CPU 内 部 〈 软 件 中 断 指 
、 洲 出 、 除 法 错误 等 ， 例 如 ， 操 作 系 统 从 用 户 态 切换 到 内 核 态 需 售 助 CPU 内 部 的 软件 中 断 ) ， 外 部 中 断 
的 中 断 源 来 目 CPU 外 部 ， 由 外 议 提 出 请 求 。 


根据 中 断 是 售 可 以 屏 和 藤 ， 中 断 可 分 为 可 屏 向 中 断 与 不 可 屏 秀 中 断 ONMD ， 可 屏 贡 中 断 可 以 通过 议 置 
HH ria 48 ey TE es se JC EI. BR. TATA FES BI py, nun] BEC] TAS Be 5c BE Wc 


A ds PTA Ake IEA ATA], A AY y Z3 [8] ee ASE [8] Sec FH KH Te HH BT HS] CPU As 73 AP Fi] 
IPA TIS HR Ss mj UI BI n] rs EIS] BIR a, it A kas BAP Br S00] by Ok UT 
AN Te] rpler c BY RAAHAA Stk. 3E TR] Sc PN a-Si eS Ak, BEATA ike, B 
EI EA Dr A IH s RA A A eS RII. Hae De HH Sr EH RS P D Hj I RA EE AN ELE, 
JE TH] ec EP Br EH CP E PHP B RI AREE A DLE e 


— 7S B 77 H5] JE [rg et ET BAS EP RUN IH LOL ATS, "ETSI ER BUS S Jet val H A Fe] H SER EIS] H BT 
服务 程序 。 


代码 清单 10.1 非 辐 量 中 断 服务 程序 的 典型 结构 


1 irq handler() 

Z. 4 

3 - 

4 int int src = read int status();  /* 读 硬件 的 中 断 相 关 寄存 器 */ 
5 switch (int src) { /* 判断 中 断 源 */ 
6 case DEV A: 

T dev a handler(); 

8 break; 

9 case DEV B: 
10 dev D Handler ().; 
11 break; 


13 default: 
14 break; 
L5 } 


PRA TAU xS6PCTEA E S Hate gs (PIC) , YFÉMCUP RME PIC. AUTE 
803861, PICJÉWS Hi8259A® HARK. HWE SPICM SESS. FER a nI A BESET ARE P 
TRAS, WE- Aaa A ST MLASK 49 46 48 70, Jer Pe A APEND A TE 28 5c BX 


REIN se CE ABR EXE ORATOR SEL, — 10. 1 TAN AAS A UAE E I n] ET] BE EN i 
(PIT) FJ LTEERZE, “ERS BA, SEKIER, A4 H TP 1 Tc E TP BEL 


《计数 目标 ) 比较 ， 奉 相等 ， 证 明 计数 周期 满 ， 并 产生 定时 融 中 断 且 复位 目前 计数 但。 


计数 值 


目前 计数 值 
(时 钟 脉冲 到 来 时 ， 增 1) 





一 一 时 钟 输入 


Sa zd E LC 


图 10.1 ”PIT 定时 器 的 工作 原理 


在 ARM 多 核 处 理 需 里 最 彰 用 的 中 断 控 制 器 是 GIC (Generic Interrupt Controller〉， 如 图 10.2 所 示 ， 它 支 
FES AS AY HJ rp ST o 


CFGSDISABLE' 
内 存 映 射 接口 
SPIs P WID 
32 ~ 101€ 
m rH BEID : € 
EP ll 内 存 映 射 接口 | — 
处 理 需 中 断 ID | | SGI los EM 
7 Q — 15 — 
| FIQ^, IR | 
(FIQ*, IRQ Q', IRQ d 
一 HID E 
au 16.31 内 存 映 射 接口 | = J 
处 理 需 EID AE FH a 
0 Q~15 + | 0 
» | a FIQ*, IRQ 
(FIQ*, IRQ)* 








图 10.2 ARM 多 核 处 理 器 里 的 GIC 


SGI (Software Generated Interrupt) : 软件 产生 的 中 断 ， 可 以 用 于 多 核 的 核 间 通信 ， 一 个 CPU 可 以 通过 
写 GIC 的 寄存 器 给 另外 一 个 CPU 产生 中 断 。 多 核 调 度 用 的 IPI WAKEUP, IPI TIMER. 
IPI RESCHEDULE, IPI CALL FUNC, IPI CALL FUNC SINGLE, IPI CPU STOP, IPI IRQ WORK, 
IPI COMPLETION 都 是 由 SGI 产 生 的 。 


PPI (Private Peripheral Interrupt) : 霖 个 CPU 私有 外 设 的 中 断 ， 这 类 外 议 的 中 断 只 能 有 给 绑 定 的 那个 


CPU. 
SPI (Shared Peripheral Interrupt) : HZSM AJP A, xx 2S EIS] HT RJ ELE EH IEA] — 1 CPU. 
对 于 SPI 类 型 的 中 断 ， 内 核 可 以 通过 如 下 API 设 定 中 断 触 发 的 CPU 核 : 


extern Int irg set arrinrty (Unsigned xmc ird; Conse SUCEUOL.cpumask ^m 


在 ARM Linux 默 认 情 况 下 ， 中 汤 都 古 在 CPU0 上 产生 的 ， 比 如 ， 我 们 可 以 通过 如 下 代码 把 中 汤 irq 设 定 
到 CPU i 上 去 : 


itg Sec arrinity(lrgq, Cpumask or(1)); 


10.2. Linux} by Xb EE FE Fe Ze 


Vc BJ HR IET WA A EEE TE TS V] EAST, RAR E ey TEK NY J OR A BAO HPT ARS PEP IS 
量 短小 精怪 。 但 是 ， 这 个 民 好 的 愿望 往往 与 现实 并 不 吻合 。 在 大 多 数 真 实 的 系统 中 ， 当 中 断 到 来 时 ， 
成 的 工作 往往 并 不 会 是 短小 的 ， 它 可 能 要 进行 较 大 量 的 耗 时 处 理 。 


图 10.3 描 述 了 Linux 内 核 的 中 断 处 理 机 制 。 为 了 在 中 断 执行 时 间 尽 量 短 和 中 断 处理 需 完成 的 工作 尽量 
大 之 轩 找 到 一 个 平衡 点 ，Linux 将 中 断 处 理 程序 分 解 为 两 个 半 部 : 项 半 部 Top Half) 和 展 半 部 (Bottom 
Half) 。 


上 半 部 
(紧急 的 硬件 操作 ) 





图 10.3 ”Linux 中 上 断 处 理 机 制 


顶 半 部 用 于 完成 尽量 少 的 比较 紧急 的 功能 ， 它 往往 只 是 徐 单 地 读 取 寄存 磺 中 的 中 类 状 态 ， 并 在 清除 中 
rs as Je BRETT EG HR IST HJ DTE. “OEE TE AAT Fak A aS JER AE a AD SRE Pp E BUT WC PNY JERE UT PA A 
去 。 这 样 ， 顶 半 部 执行 的 速度 融会 很 忆 ， 从 而 可 以 服务 更 多 的 中 断 请 求 。 


现在 ， 中 断 处 理工 作 的 重心 瓯 沙 在 了 撒 半 部 的 头 上 ， 需 用 它 来 完成 中 断 事 件 的 绝 大 多 数 任 务 。 撒 半 部 
几乎 做 了 中 上 断 处 理 程 序 所 有 的 事情 ， 而 且 可 以 彼 新 的 中 断 打 断 ， 这 也 是 展 半 部 和 项 半 部 的 最 大 不 同 ， 因 广 
顶 半 部 往往 被 设计 成 不 可 中 断 。 展 半 部 相对 来 说 并 不 是 非常 系 候 的 ， 而 且 相 对 比较 耗 时 ， 不 在 便 件 中 断 服 
务 程序 中 执行 


尽 宫 项 半 部 、 展 半 部 的 结合 能 够 改善 系统 的 啊 应 能 力 ， 但 征 ， 僵 化 地 认为 Linux 议 备 张 动 中 的 中 断 处 
理 一 定 要 分 两 个 半 部 则 走 不 对 的 。 如 琳 中 断 要 处 理 的 工作 本 映 很 少 ， 则 完全 可 以 直接 在 项 半 部 全 部 完成 。 





其 他 操作 系统 中 对 中 断 的 处 理 也 采用 了 类 似 于 Linux 的 方法 ， 真 正 的 硬件 中 断 服 务 程 序 都 应 该 
尽量 短 。 因 此 ， 许 多 操作 系统 都 提供 了 中 断 上 下 文 和 非 中 断 上 下 文 相 结合 的 机 制 ， 将 中 断 的 耗 时 工作 保留 
到 非 中 断 上 下 文 去 执行 。 例 如 ， 在 VxWorks 中 ， 网 络 设备 包 接 收 中 断 到 来 后 ， 中 断 服务 程序 会 通过 
netJobAdd〈) 函数 将 耗 时 的 包 接收 和 上 传 工 作 交 给 tNetTask 任 务 去 执行 。 


在 Linux 中 ， 全 看 /proc/interrupts 文 件 可 以 获得 系统 中 中 靳 的 统计 信息 ， 并 能 统计 出 每 一 个 中 肠 写 上 的 
中 断 在 每 个 CPU 上 友 生 的 人 次数， 具体 如 图 10.4 所 示 。 


baohuagbaohua-VirtualBox://sys/module/globalmemS cat /proc/interrupts 


CPUO 
119 
14444 
0 

0 

2483 

0 
11679 
14749 
17379 
105402 
30 

0 
564521 
0 

0 

0 

0 
263390 
52 

830 


CPU1 


Ooooocoococcocoocoo 


382214 
50 
1201 

0 

0 

0 


IO-APIC-edge 
IO-APIC-edge 
IO-APIC-edge 
IO-APIC-fasteoi 
IO-APIC-edge 
IO-APIC-edge 
IO-APIC-edge 


timer 
18042 
rtco 
acpi 
18042 
ata piix 
ata piix 


IO-APIC 
IO-APIC 
IO-APIC 
IO-APIC 


19-fasteoi 
20-fasteoi 
21-fasteoi 
22-fasteoi 


ehci_hcd:usbi, etho 
vboxguest 
0000:00:0d.0 

ohci hcd:usb2 


Non-maskable interrupts 
Local timer interrupts 
Spurious interrupts 


Performance monitoring interrupts 


IRQ work interrupts 

APIC ICR read retries 
Rescheduling interrupts 
Function call interrupts 


TLB shootdowns 


Thermal event interrupts 
Threshold APIC interrupts 
Machine check exceptions 
Machine check polls 





图 10.4 Linux P HJ HR refi fi dsl 
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10.3 Linux? Wrin FE 


10.3.1 FATS ARE Wr 


fE Linux 14 IKAP, EH P aA m e tg AE BOW NLIS] FR, FNE H N IATER 
request irq () 和 free irq © PRA. 


1. 申 请 irq 


LE 
const char *name, void *dev); 


irq 征 要 申请 的 使 件 中 断气。 


handler 是 同系 统 登 记 的 中 汤 处 理沙 数 〈 顶 半 部 ) ， 是 一 个 回调 函数 ， 中 汤 友 生 时 ， 系 统 调 用 这 个 也 
数 ，dev 参 数 将 被 传递 给 它 。 


irqflags 是 中 断 处 理 的 属性 ， 可 以 指定 中 断 的 触发 方式 以 及 处 理 方 式 。 在 触及 方式 方面 ， 可 以 是 
IRQF TRIGGER RISING. IRQF TRIGGER FALLING. IRQF TRIGGER HIGH. IRQF TRIGGER LOW 
Fo TEMBPEUIXXUTIBI, XXX EL SIRQF SHARED, Jljzezs ^ iie Akte AI, deve EE TEX 28 HIT IRA TE 
序 的 私有 数据 ， 一 般 设 置 为 这 个 设备 的 设备 结构 体 或 者 NULL。 


request irq. O 返回 0 表示 成 功 ， 返 回 -EINVAL 表 示 中 断 亏 无 效 或 处 理 国 数 指 针 为 NULL， 返 回 - 
EBUSY 表 示 中 断 己 经 被 占用 且 不 能 共 宇 。 


ABL devm. reguest xrg(sStrucL device “dev; unsigned nce arg; LXrg:hangler.t SORTE 
unsigned long irqflags, const char *devname, void *dev id); 


此 函数 与 request irq ©) 的 区 列 是 devm 开头 的 API 申 请 的 是 内 核 “managed” 的 资源 ， 一 般 不 需要 在 出 
错 处 理 和 remove O 接口 里 再 显 式 的 释放 。 有 点 类 似 Java 的 垃圾 回收 机 制 。 比 如 ， 对 于 at86rf230 驱 动 ， 如 
下 的 补丁 中 改 用 devm request irq ©) JE UU ER f free irq O 5. YAN J OTN A TZ commit ID 是 652355c5。 


--- a/drivers/net/ieee802154/at8060rf230.c 
+++ b/drivers/net/ieee802154/at86rf230.c 
CE -LL90,24T1190,22008 Static int at90rr250 probei(struct Spi device spl) 

1f (rc) 

goto err nw Init; 
LC = reguest. lrg(splie irg handler; TIROF SHARED; 
dev name(&spi-»dev), 1p); 
= devm request 121g (éspi-Sdev, SPL- ilds irq handler, LROF SHARED, 
dev name (&spi->dev), lp); 


+ + I | 
H 
Q 


lr (re) 
goto err Hw Init; 
/* Read irq status register to reset irq line */ 
re = gU55rI220 read subreg(lp, RG IRO STATUS, Uxit, Oy &status); 
liq (rc) 
= GOTO Grr Lig; 
+ goto err hw init; 
ro = leespa lod. register devroce(lp-^devs 


Lt (rC) 
= Goto err arg; 
+ goto err hw init; 
recura roj 
—err rd: 
一 free irq(spi-»irq, lp); 
err nw init: 
flush work(&lp-»irqwork); 
SPL Seu devdata(sph, NULL)? 
ad -1232,74+1230,6@@ static int at86rf230 remove(struct spi device *spi) 
atocorr230 write subreg(lp, Sk IRO MASK; 0); 
ieee802154 unregister device(lp-»dev); 
- free irg(spi->irg,; Ip); 
flush work(&lp-»irqwork); 
LI (gpro is valid(pdata--slp tr)) 


顶 半 部 handler 的 类 型 irq_handler t€ XX: 


typeder arqreturm © (“irg handler C) (int, vaid 9); 
typedef int irgreturm t; 


2. 释 放 irq 
与 request irq O 相对 应 的 函数 为 ffee irq © , free irq O 的 原型 为 : 
vöid Tree: irg(ünsigned Int L1f10,VOz0.'*gev 1d); 


free irq OO 中 参数 的 定义 与 request irq. OO 相同 。 


10.3.2 1E BERI BE ic rp ST 


FAJ34P ER CHI F BE i — 1 HP BUS: 


void disable argtine Iq); 
vold Giseble irq nosSyncirhnt 170); 
vord enable Trott arg); 


disable irq nosync () disable irq O 的 区 列 在 于 前 者 立即 返回 ， 而 后 者 等 竺 目前 的 中 断 处 理 完 
成 。 由 于 disable irq O 会 等 待 指定 的 中 断 被 处 理 完 ， 因 此 如 有 果 在 n 亏 中 断 的 项 半 部 调用 disable irq (n) , 
会 引起 系统 的 死 锁 ， 这 种 情况 下 ， 只 能 调用 disable irq nosync (n) 。 


下 列 两 个 函数 (或 宏 ， 具 体 实现 依赖 于 CPU 的 体系 结构 ) 将 屏蔽 本 CPU 内 的 所 有 中 断 : 


detine local irq save(tlags) «.«. 
void local arg disable (void); 


六 者 会 将 目前 的 中 断 状 态 保 留 在 flags 中 〈 注 意 flags 为 unsigned long 关 型 ， 被 直接 传递 ， 而 不 是 通过 指 
TO ， 后 者 直接 茶 目 中断 而 不 保存 状态 。 


与 上 述 两 个 茶 止 中 断 对 应 的 恢复 中 断 的 函数 《或 宏 ) 是 : 


rdefine local irq restore(flags) 2s 
void local irq enable(vord); 


以 上 各 以 local 开头 的 方法 的 作用 范围 是 本 CPU 内 。 


10.3.3” 展 半 部 机 制 


Linux 实 现 奔 半 部 的 机 制 主要 有 tasklet、 工 作 队 列 、 软 中 断 和 线程 化 irq。 


] .tasklet 


tasklet， 并 将 其 与 my_tasklet_funce() 这 个 函数 绑 定 ， 而 传 入 这 个 函数 的 参数 为 data。 


Ay 


taskletHY BEAL Ber, "BIA T EP CEA, SATIN LH TS Ze IE I EIR RITA mt 
义 tasklet 及 其 处 理 函 数 ， 并 将 两 者 天 联 则 可 ， 例 如 : 
void my tasklet func (unsigned long); /* 定 义 一 个 处 理 函 数 */ 


DECLARE TASKLET(my tasklet, my tasklet func, data); 
/ * 定 义 一 个 Lasklet 结 构 my tasklet, 与 my tasklet func (data) 函数 相关 联 x / 


代码 DECLARE TASKLET (my tasklet, my tasklet func, data) 实现 了 定义 名 称 为 my tasklet 的 


在 需要 调度 tasklet 的 时 候 引 用 一 个 tasklet schedule ©) 函数 束 能 使 系统 在 适当 的 时 候 进 行 调度 


basklet Schedule[suny asst) 


ff H taskletF 73 I AF BE Ab FP Dr EP) oc ee DERE sc Ss 810.2 Tz. CM STAB E 


) 。 


代码 清单 10.2 tasklet 使 用 模板 


1/* 定义 七 aSK1Let 和 底 半 部 函数 并 将 它们 关联 */ 
2void xxx do tasklet(unsigned long); 


3DECLARE TASKLET(xxx tasklet, xxx do tasklet, 0); 


4 
5/* 中 断 处 理 底 半 部 */ 
6void xxx do tasklet (unsigned long) 


11/* 中 断 处 理 顶 半 部 */ 

l2irqreturn t xxx interrupt(int irq, void “dev id) 
Rs a 

14 ... 

15 tasklet schnedule(&xxx tasklet); 


19/* 设备 驱动 模块 加 载 函 数 */ 

2010 de c tne yon.) 

21.1 

Le mx 

23 /* 申请 中 断 */ 

24. ae 
25 D, “se, NULG? 

ZO auos 

21 return IRU HANDLED; 

zo) 

29 

30/* 设备 驱动 模块 卸载 函数 */ 

3lvoid | exit xxx exit (void) 

324 

Ce 46% 

34 /* 释放 中 断 */ 

20 Xree Lrg(Xxx Arg; Xxx Ann erru pL); 


Y — 


过 


一 一 人 


行 : 


ry 


KE 


OO axe 
SN 


ERETRIA Fr PT (24257) , FREER UESTRE C (B357T) 。 对 应 


Txxx irq 的 中 断 处 理 程 序 裤 设置 为 xxx_interrupt O 困 数 ， 在 这 个 图 数 中 ， 第 15S 行 的 
tasklet schedule (&xxx tasklet) 调度 被 定义 的 tasklet 函 数 xxx do tasklet O 在 适当 的 时 候 执行 。 


2. 工 作 队 列 


工作 队列 的 使 用 方法 和 tasklet 非 党 相似 ， 但 是 工作 队列 的 执行 上 下 文 是 内 核 线 程 ， 因 此 可 以 调度 和 睡 


眠 。 下 面 的 代码 用 于 定义 一 个 工作 队列 和 一 个 底 半 部 执行 函数 : 


struct work struct my wq; /* 是 及 二 下 工作 队列 */ 
void my wq func(struct work struct *work); /* se ASAD BE * / 


通过 INIT_ WORK ©) 可 以 初始 化 这 个 工作 队列 并 将 工作 队列 与 处 理 函 数 绑 定 : 


INIT WORK(&my wq, my wq func); 
/* 初始 化 工作 队列 并 将 其 与 处 理 函 数 绑 定 */ 


Hjtasklet schedule O 对 应 的 用 于 调度 工作 队列 执行 的 函数 为 schedule work €) , 4: 


schedule work(&my wq); /* 调度 工作 队列 执行 */ 


与 代 但 清单 10.2 对 应 的 使 用 工作 队列 处 理 中 断 展 半 部 的 说 备 张 动 程序 模板 如 代 但 清单 10.3 所 示 《 仅 包 


eS PTAA ABAD) 。 


代码 清单 10.3 工作 队列 使 用 模板 


l/* 定义 工作 队列 和 关联 函数 * / 

2struct work struct xxx wq; 

3vold xxx do work(struct work struct *work); 
4 

5/* 中 断 处 理 底 半 部 */ 

6void xxx do work(struct work struct *work) 


11/* 中 断 处 理 顶 半 部 */ 
lorrqreturn P Xxx IN erru p (Int XEg. Vold “dev 1d) 
154 

14 ... 

15 schedule work(&xxx wq); 
Ur m 

17 return IRQ HANDLED; 

T6] 

19 

20/* 设备 驱动 模块 加 载 函数 */ 
2lint xxx init (void) 


24 

20 x2 

24 /* 申请 中 断 */ 

29 pesult = fcequest 179 (xxx Arf], Xxx Snmterrtupt, 
26 D, Tax. NULL)? 

21 


28 /* 初始 化 工作 队列 */ 
29 INIT WORK(&xxx wq, xxx do work); 


31} 

32 

33/* 设备 驱动 模块 卸载 函数 */ 

34void xxx exit (void) 

2:94 

OO xm 

37 /* 释放 中 断 */ 

290 Trees LPO (XX irg; XXX TNLELEUDL)S 
JU i. 

40] 


EIS 10.2 AEE ERRET E BET BE RR LER BO Y 9845 LTERA PURIS (29 
ÍT) 。 


工作 队列 早期 的 实现 是 在 每 个 CPU 核 上 创建 一 个 worker 内 核 线 程 ， 所 有 在 这 个 核 上 调度 的 工作 都 在 该 
worker 线 程 中 执行 ， 其 并 发 性 显然 兰 强 人 意 。 在 Linux 2.6.36 以 后 ， 转 而 实现 了 “Concurrency-managed 
wotrkqueues”， 稍 称 cmwq，cmwq 会 目 动 维护 工作 队列 的 线程 池 以 提高 并 及 性 ， 同 时 保持 了 API 的 回 后 碌 


a BP 
SJN 


as 
3.2 AAT 


ERAT CSoftirg) th te — PERE Se ER AE aS bE AL ll, TE ES AAT ET ALB SS ETE [EEN (RR, tasklet 
是 基于 软 中 断 实 现 的 ， 因 此 也 运行 于 软 中 断 上 下 文 。 


在 Linux 和 内核 中 ， 用 softirq_action 结 构 体 和 表征 一 个 软 中 新， 这 个 结构 体 包含 软 中 断 处 理 函 数 指 针 和 传递 
给 该 函数 的 参数 。 使 用 open softirg〈) ER n] EACH PDT Dy HY KB ERA, fraise softirq © 函数 可 以 
fie A — AN ERAT o 


软 中 断 和 tasklet 运 行 于 软 中 断 上 和 下文， 仍然 属于 原子 上 下 文 的 一 种 ， 而 工作 队列 则 运行 于 进程 上 下 
文 。 因 此 ， 在 软 中 断 和 tasklet 处 理 函 数 中 不 允许 睡眠 ， 而 在 工作 队列 处 理 函 数 中 人 允许 睡眠 。 


local bh disable Ò local bh enable O 是 内 核 中 用 于 茶 止 和 使 能 软 中 断 及 tasklet 搬 半 部 机 制 的 函 
数 。 


内 核 中 采用 softirq 的 地 方 包括 HI SOFTIRQ. TIMER SOFTIRQ, NET TX SOFTIRQ、 
NET RX SOFTIRQ、SCSI SOFTIRQ. TASKLET SOFTIRQ 等 ， 一 般 来 说 ， 驱 动 的 编写 者 不 会 也 不 宜 直 
接 使 用 softirgq。 


第 9 章 异 步 通知 所 基于 的 信号 也 类 似 于 中 断 ， 现 在 ， 总 结 一 下 硬 中 断 、 软 中 断 和 信号 的 区 别 ， 硬 中 断 
是 外 部 设备 对 CPU 的 中 断 ， 软 中 断 是 中 断 底 半 部 的 一 种 处 理 机 制 ， 而 信号 则 是 由 内 核 (或 其 他 进程 ) 对 某 
个 进程 的 中 断 。 在 涉及 系统 调用 的 场合 ， 人 们 也 常 说 通过 软 中 断 〔 例 如 ARM 为 swi) 陷入 内 核 ， 此 时 软 中 
断 的 概念 是 指 由 软件 指令 引发 的 中 断 ， 和 我 们 这 个 地 方 说 的 softirq 是 两 个 完全 不 同 的 概念 ， 一 个 是 

-不 


software, Té soft. 


需要 特别 说 明 的 是 ， 软 中 断 以 及 基于 软 中 断 的 tasklet 如 果 在 某 段 时 间 内 大 量 出 现 的 话 ， 内 核 会 把 后 续 
软 中 断 放 入 ksoftirqd 内 核 线程 中 执行 。 总 的 来 说 ， 中 断 优 先 级 高 于 软 中 断 ， 软 中 断 又 高 于 任何 一 个 线程 。 
软 中 断 适 度 线程 化 ， 可 以 缓解 高 负载 情况 下 系统 的 响应 。 


4.threaded irq 


在 内 核 中 ， 除 了 可 以 通过 request irq ©) 、devm request irq O 申请 中 断 以 外 ， 还 可 以 通过 
request threaded irq () 和 devm request threaded irq © 申请 。 这 两 个 函数 的 原型 为 : 
int eguen threaded irqí(unsigned ni irq, irg handler ct handler, 
LEG handler c Thread in, 
unsigned long flags, const char *name, void *dev); 
une: devm feguest threaded tq (struct. device *dev, unsigned sant 1rd; 
irq handler t handler, irq handler t thread fn, 


unsigned long irgflags, const char *devname, 
void *dev ad); 


由 此 可 见 ， 它 们 比 request irq © ~ devm request irq () 多 了 一 个 参数 thread fn. Aix pA API iii | 


源 的 时 候 ， 内 核 会 为 相应 的 中 汤 与 分 配 一 个 对 应 的 内 核 线程 。 注 症 这 个 线程 只 针对 这 个 中 汤 写 ， 如 果 其 他 
中 断 也 通过 request threaded irq O 申请 ， 目 然 会 得 到 新 的 内 核 线程 。 


参数 handler 对 应 的 函数 执行 于 中 断 上 下 文 ，thread 和 参数 对 应 的 函数 则 执行 于 内 核 线程 。 如 果 handler 
结束 的 时 候 ， 返 回 值 是 IRQ_WAKE_THREAD， 内 核 会 调度 对 应 线程 执行 thread_ 甸 对 应 的 函数 。 


request threaded irq () 和 devm request threaded irq © 支持 在 irgflags 中 设置 IRQF ONESHOT 标 记 ， 

这 样 内 核 会 自动 帮助 我 们 在 中 断 上 下 文中 屏蔽 对 应 的 中 断 号 ， 而 在 内 核 调度 thread_ 血 执 行 后 ， 重 新 使 能 该 

中 断 号 。 对 于 我 们 无 法 在 上 半 部 清除 中 断 的 情况 ，IRQF ONESHOT 特 别 有 有 用， 避免 了 中 断 服务 程序 一 退 
出 ， 中 断 就 洪 泛 的 情况 。 


handler 参 数 可 以 设置 为 NULL， 这 种 情况 下 ， 内 核 会 用 献 认 的 irq_default_primary handler O RE 
handler， 并 会 使 用 IRQF ONESHOT 标 记 。irq default primary handler O 定义 为 : 


ja 

* Default primary interrupt handler for threaded interrupts. Is 

^ assigned as primary handler when request threaded irq 1s called 

* with handler == NULL. Useful for oneshot interrupts. 

i 
SELL TrForeturn t irg derault primary Bandler (inc. Irq; vord “dev id) 
{ 

return IRQ WAKE THREAD; 
} 


10.3.4 ”实例 ，GPIO 按 键 的 中 断 


drivers/input/keyboard/gpio keys.czé —  JBCZ VU 8E EVE GPIOFZBESK AN, 73 f LEV SRO TE REE HJ FER 
板 上 工作 ， 通 第 只 需要 修改 arch/arm/mach-xxx 下 的 板 文 件 或 者 修改 device tree 对 应 的 dts。 访 张 动 会 为 每 个 
GPIO 申 请 中 汤 ， 在 gpio keys setup key O 六 数 中 进行 。 注 意 最 后 一 个 参数 bdata， 会 收 传 入 中 靳 服务 程 
To 


代码 清单 10.4 GPIOJÈ EIKA h Lr FR ds 


locatio nnt gplo keys Setup keyv(struct Platiorm device “pdev, 


d Struct input dev “input, 

3 SEEUC gpio Dutton dala *"DOSLtay 

4 const Struct gpio keys button ^bütton) 
2d 

6 

7 

o. Error = Xeguest any context 179 (bdata-lird, Sr, 1ra lags; desc, bdata); 
9 if (error < O) 1 
10 dev err(dev, "Unable to claim irq $d; error %d\n", 
11 bdata-»irg, error); 
12 goto ral 
13 4} 

14 

15] 


第 8 行 的 request any context irq O tk YaAGPIOPFE l| 28s AN E 2k" F ze f Nthreaded irq2 C EK 
用 request irq. () 还 是 request threaded irq () . —ZHGPIO 〈 如 32 个 GPIO) 虽然 每 个 都 提供 一 个 中 断 ， 并 
且 都 有 中 汤 写 ,但 是 在 价 件 上 一 组 GPIO 通 党 是 散 侠 在 上 一 级 的 中 汤 控 制 器 上 的 一 个 中 肠 。 


request any context irq. O 也 有 一 个 变 体 是 devm request any context irq () 。 
在 GPIO 按 刍 驱 动 的 remove key O 函数 中 ， 会 释放 GPIO 对 应 的 中 断 ， 如 代码 清单 10.5 所 示 。 
代码 清单 10.5 ”GPIO 按 键 驱动 中 断 释放 


leStatic word gpro remove key (struct gpio Dutton Gata *bdata) 


Z4 

3 Tree aXq(DOata-1rg, Ddata) 7 

4 if (bdata->timer debounce) 

5 del timer Sync(sbdata--timer); 

6 cancel work sync (&bdata->work) ; 

f LI (Opi0- ne valrdibdatà-cbutton-^gpoo)) 
8 gpuo rree(DOgta-SDUDLOD- gpIOo 


GPIO 按 键 驱 动 的 中 断 处 理 比 较 简 单 ， 没 有 明确 地 分 为 上 下 两 个 半 部 ， 而 只 存在 项 半 部 ， 如 代码 清单 
10.6 所 示 。 


代码 清单 10.6” GPIOTZBEUXzJ] FH Ir Ab TUER Ae 


lSLatrio AXrdgreturn © gpio keys gpro 19r(rinuü irg; void ^dev xd) 
23 

3 Struct gprio button data *bdata = dev id; 

4 


BUG. ON ESL d Ddarva= Sp) 

6 

J if (bdata->button->wakeup) 

8 pm Stay awake(bdata-^input-^dev.parent); 
9 LL (bdata=>timer debounce) 
10 mod txmer(sbdata--staimer, 
IX Titles + sees: cuo jillres(Ddabto-»timer debounce). 
12 else 
TS schedule work(&bdata-»work); 

14 

15 return IRO HANDLED; 

16] 


第 3 行 直接 从 dev_ id 取出 了 bdata， 这 就 是 对 应 的 那个 GPIO 键 的 数据 结构 ， 之 后 根据 情况 启动 timer 以 进 
行 debounce 或 者 直接 调度 工作 队列 去 汇报 按键 事件 。 在 GPIO 按 键 驱 动 初始 化 的 时 候 ， 通 过 
INIT WORK (&bdata->work, gpio keys gpio work func) 初始 化 了 bdata->work， 对 应 的 处 理 函 数 是 
gpio keys gpio work func © ， 如 代码 清单 10.7 所 示 。 


代码 清单 10.7 ”GPIO 按 键 驱动 的 工作 队列 底 半 部 


Istadtlc vord gpao-keys Oplo work .FUNnC(Striuet WOEZK -SsUruct. *work) 


Z1 

3 struct gpro Dutton data *bdata = 

4 Contarner Ot (work,;. SUtrüct.gpro Dutton data; work) ; 
S 

6 gpio keys gpio report event (bdata); 

J 

8 if (bdata->button->wakeup) 

9 pm relaxiboata-og2npuvt-»dev.parent); 
TO} 


观察 其 中 的 第 3~4 行 ， 它 通过 container of ©) FY work struct 反 回 解析 出 了 bdata。 原 因 是 
work structA E EXE MEY, BHKAEgpio button data 结 构 体 内 。 旗 者 朋友 们 应 该 掌 握 Linux 的 这 种 可 以 到 
处 获取 一 个 结构 体 指 针 的 技巧 ， 它 实际 上 类 似 于 面 同 对 象 里 面 的 “this” 指 针 。 


Surücp gpro button data. d 
Const "Struct ro Keys DUuLLton *Dutbonr 
Struct input dev "r:nput; 
Struct. Cimer Isc “camer; 
struct work struct work; 
unsigned int timer debounce; J= in moecs * 7 
unsigned int irg; 
cpInlo0k T 2057 
bool disabled; 
bool key pressed; 


10.4 byte eS 


e 7 a FEE AR ME FTG FN Te OU LES Pas RS Z8 CUR] IZ ETE, Linuxcare. PT 
XE FT FR CEPI S A TYE 


1) 共享 中 断 的 多 个 设备 在 申请 中 断 时 ， 都 应 该 使 用 了 豚 QF SHARED 标 志 ， 而 且 一 个 设备 以 
IRQF SHARED 申 请 茶 中 断 成 芒 的 前 所 是 该 中 断 未 航 申 请 ， 或 议 中 断 虽 然 航 申请 了 ， 但 是 之 前 申请 该 中 贿 
的 所 有 设备 也 都 以 IRQF SHARED 标 志 申 请 该 中 断 。 


2) 尽管 内 核 模 块 可 访问 的 全 局 地 址 都 可 以 作为 request irq (..., void*dev id) 的 最 后 一 个 参数 
dev id， 但 是 设备 结构 体 指针 显然 是 可 传 入 的 最 佳 参 数 。 


3) 在 中 断 到 来 时 ， 会 遇 历 执行 共享 此 中 断 的 所 有 中 断 处 理 程序 ， 直 到 有 某 一 个 函数 返 
IRQ_HANDLED。 在 中 新 处 理 程序 项 半 部 中 ， 应 根据 硬件 寄存 器 中 的 信息 比照 传 入 的 dev_id 参 数 迅 速 地 判 
断 是 否 为 本 设备 的 中 断 ， 咎 不 是 ， 应 迅速 返回 隔 Q_NONE， 如 网 10.$ 所 示 。 


共享 中 断 到 来 
N 


是 否 为 本 设备 中 断 





处 理 中 断 ， 调 度 下 半 部 


图 10.5 去 孚 中 断 的 处 理 
代码 清单 10.8 给 出 了 使 用 共享 中 断 的 设备 驱动 程序 的 模板 《〈 仅 包含 与 共享 中 断 机 制 相 关 的 部 分 ) 。 
代码 清单 10.8 ”共享 中 断 编 程 模板 
Mec ———— 


int status = read int status(); /* 获知 中 断 源 */ 


5 

6 if(!is myint(dev id,status)) /* 判断 是 否 为 本 设备 中 断 */ 
7 return IRQ NONE; /* 不 是 本 设备 中 断 ， 立 即 返回 */ 
8 

9 /* 是 本 设备 中 断 ， 进 行 处 理 */ 

1 -— 

11 return IRQ HANDLED; /* REIRO HANDLDLED 表 明 中 断 已 被 处 理 */ 
12] 

13 


14/* 设备 驱动 模块 加 载 函数 */ 


lorut xxx Tnit (void) 


18 /* 申请 共享 中 断 */ 
L9 result = peoguest LOQgQSUn -Tro XX LIDterrupr, 
20 IROF SHARED, "xxx", xxx dev); 


24/* 设备 驱动 模块 卸载 函数 * / 
25void xxx exit(void) 
261 


21 ee 

28 /* 释放 中 断 */ 

29 free irq(xxx irq, xxx interrupt); 
30 

21] 


10.$ Welt a 
10.5.1 ”内 核定 时 器 编程 


软件 意义 上 的 定时 器 最 终 依 赖 硬件 定时 右 来 实现 ， 内 核 在 时 钟 中 断 发 生 后 检测 各 定时 器 是 否 到 期 ， 到 
期 后 的 定时 峰 处 理 函 数 将 作为 软 中 断 在 撒 半 部 执行 。 实 质 上 ， 时 钟 中 断 处 理 程序 会 唤起 TIMER_SOFTIRQ 
软 中 断 ， 运 行当 前 处 理 器 上 到 期 的 所 有 定时 器 。 


在 Linux 设 备 张 动 编程 中 ， 可 以 利用 Linux 内 核 中 提供 的 一 组 函数 和 数据 结构 来 完成 定时 触及 工作 或 者 
完成 未 周期 性 的 事务 。 这 组 函数 和 数据 结构 使 得 驱动 工程 师 在 多 数 情 况 下 不 用 关心 具体 的 软件 定时 硕 完 竟 
Mop DV. EE EN) A A EAE AT AY o 


Linux 内 核 所 提供 的 用 于 操作 定时 器 的 数据 结构 和 函数 如 下 。 

1.timer list 
fELinuxPjTZrH, timer _ list 结构 体 的 一 个 实例 对 应 一 个 定时 器 ， 如 代码 清单 10.9 所 示 。 
代码 清单 10.9 timer list 结 构 体 


lIStrucb timer liec 1 
2 "Bo 

5 * All fields that change during normal runtime grouped to the 
4 * same cacheline 

S s 

6 Struce Lint bead entry, 

7 unsigned long expires; 

8 SLLUCL YOC Dase. *base, 


10 void (*function) (unsigned long); 
ll unsigned long data; 

12 

13 int slack; 

14 

15#ifdef CONFIG TIMER STATS 

jus LIE Stare prd; 

17 VOTO Star Site; 

18 char start commo]; 

19#endif 

20#ifdef CONE LG LOCRDER 

2L struct lockdep map lockdep map; 
22#endif 

ea ae 


当 定 时 器 期 满 后 ， 其 中 第 10 行 的 function〈() 成 员 将 被 执行 ， 而 第 11 行 的 data 成 员 则 是 传 入 其 中 的 参 
数 ， 第 7 行 的 expires 则 是 定时 器 到 期 的 时 间 Giffies) 。 


如 下 代码 定义 一 个 名 为 my timer 的 定时 化 : 


SLruct timer List Ny timer; 


2. 初 始 化 定时 器 


init_timer 古 一 个 宏 ， 它 的 原型 等 价 于 : 
VOLO gnat Timer(struct. timer list ~ tamer); 


上 述 init timer ©) 函数 初始 化 timer list 的 entry 的 next 为 NULL， 并 给 base 指 针 赋 值 。 


TIMER INITIALIZER ( function, expires, data) ZH] T WB EN sz WY function, expires. 
data 和 base 成 员 ， 这 个 宏 等 价 于 : 


define TIMER INITIALIZER( function, expires, data) { 
.entry = { .prev = TIMER ENTRY STATIC hy 
pEUNCELOM = 4 Tunceeron.)., 
Erer = ( expires), 
"Coro = { Cava), 
„Dase = DOOL Tvec Dases, 


A ue GO GO Gg Lm 


DEFINE TIMER ( name, function, expires, data) 宏 是 定义 并 初始 化 定时 器 成 员 的 “快捷 方式 ”， 


这 个 宏 定 义 为 : 


#define DEFINE TIMER( name, function, expires, data) \ 
struct timer list name =\ 
TIMER INITIALIZER( function, expires, data) 


此 外 ，setup_timer © 也 可 用 于 初始 化 定时 器 并 赋值 其 成 员 ， 其 源 代码 为 ; 


define | setup timer( timer, fn, data, flags) N 
do { 3 
| init timer(( timer), ( flags)); N 
( timer)->function = ( fn); N 
( timer)->data = ( data); N 
} while (0) 


3 JEn xE BT as 
ee a 
上 述 孙 数 用 于 注册 内 核定 时 顷 ， 将 定时 占 加 入 到 内 核 动 态 定时 右 链 表 中 。 
4. E xe ET as 
inb deb eames e "usb PO Gees 
FIS E 2508] TRIER EET i 


del timer sync () 是 del timer ©) WEFR, FERN BR P XE SE aR EN ga SSF AH Se, ALE PRAY 
i3 FA AN He ACE TE TRISTE P CHE 


5 AE OE IN #8 WJ expire 


IMG mod Tamer(Struce Camer. LS 


ERRA T I ee SE REI SAE TB], CERT Re A Hexpires # SK Ja A 2 3AVET XE EST su PRI BY o 


US is 810.1028 Hi Y, SCE AAS FEIN ae EP, FERS BU Ps WC ORT B RO AD 
FEAE H SE SE a o 


代码 清单 10.10 ”内 核定 时 器 使 用 模板 


1/* XXX 设备 结构 体 */ 

ZSCLUCt xxx dev 1 

3 Struct cdev cdey, 

D ds 

> Taner list x timer; /* 设备 要 使 用 的 定时 器 */ 
6}; 

7 

8/* XXX 驱动 中 的 某 函 数 */ 

es 


由 


13  /* 初始 化 定时 器 */ 
14 init timer(&dev-»xxx timer); 


l5 deve xxx LCImMerdrunotrom = ¢xxx do timer; 
16. dev-»2xxx timer,.data = (unsigned long)dev; 
17 /* 设备 结构 体 指针 作为 定时 器 处 理 函 数 参数 */ 
l9. dev-^xxx timer.expires = jiffies + delay; 


19  /* 添加 (注册 ) 定时 器 */ 
2 


24/* XXX 驱动 中 的 某 函 数 大 / 
2 RK UMC Zen) 


28  /* 删除 定时 器 */ 
29: del Cimer (&deve-oxxx Timer); 


33/* 定时 器 处 理 函数 * / 
S4stactic void Xxx do timer(unsigned long arg) 


391 

230 Struce XXX device "dev = (SLIPUOCC Xxx device ^) (arg); 
Od (we wd 

38 /* 调度 定时 器 再 执行 */ 

29 dev-oxxx tlmer.expilres = jilrfiess + delay; 

40 add timer(&dev-»xxx timer); 

41 

42} 


WANE B18. 3947 HJ DAA, REMY SRI] BY IN Ta ECE Ze TE H Bi jiffiesH] Amb FE YS “PAY RE. d 


为 Hz， 则 表示 延迟 1s。 


在 定时 硕 处 理 函 数 中 ， 在 完成 相应 的 工作 后 ， 往 往 会 延 后 expires 并 将 定时 套 再 次 添 加 到 内 核定 时 硕 链 
KP, EET AS Re HARI AEA o 


woah, LinuxA 4% x fticklessHINO. HZtisUa, WEES X hrtimer ASEEN Hy €H 
以 文 持 到 微 秒 级 别 的 精度 。 内 核 也 定义 了 hrtimer 结 构 体 ，hrtimer set expires () 、 
hrtimer start expires () 、hrtimer forward now () 、hrtimer restart O) 等 英 似 的 API 来 完成 hrtimer 的 设 


置 、 时 间 推 移 以 及 到 期 回调 。 我 们 可 以 从 sound/soc/fsWimx-pcm-fig.c 中 提取 出 一 个 使 用 范例 ， 如 代码 清单 


10.11 所 示 。 


代码 清单 10.11 内核 高 精度 定时 堪 Chrtimer) 使 用 模板 


SEE 


21 

3 

4 

5 Se 二 ie 
6 

7 return HRIIMER BESTART; 

8 } 

9 

lOÜstatric rcnt Sud Ime pen trigger (struct snd pom -substream *subsStream; mL cme) 
134 

12 SUruct snd- pom runbime- *rumbime--— GSubsStream--rumtrime; 

iS SUPDUCL Hbc pem Suustame data. “Ipro = Eüuntrme-^private daca; 
14 

15 switch (cmd) 4 

1:0 case SNDRV PCM. TRIGGER: STAET: 

17 case SNDRV PCM TRIGGER RESUME: 

18 case SNDRV PCM TRIGGER PAUSE RELEASE: 

1,9 € 
2 上 
Zl HRTIMER MODE REL); 
22 
20 
24 
Z29sUcdLEO XC Send mx opem(struct sud pon eubstream *supstream) 
26 { 
21 n 
28 hrtimer xnit(&iprtd--hrt, CLOCK MONOTONIC, ARTIMER MODE REL); 
29 工作 
30 

24 E 

32 return 0; 

oo 

S4stalire: INE Send imx-ochose(sUuruct snd pom substreem- *substream) 

o 

36 Eid 

Sal Drtcrmer Carge (Ce Lr t= Se 

38 

o 


第 28~29 行 在 声卡 打开 的 时 候 通 过 hrtimer init © 初始 化 了 hrtimer， 并 指定 回调 函数 为 
snd hrtimer callback © ; 在 启动 播放 (第 15~21 行 SNDRV PCM TRIGGER START) 等 时 刻 通 过 
hrtimer start ) 局 动 了 hrtimer; iprtd->poll time_ns 纳 秒 后 ， 时 间 人 到 snd_hrtimer callback ©) PA ZÆ P Wr E 
下 文 被 执行 ， 它 紧 接着 又 通过 hrtimer forward now () 把 hrtimer 的 时 间 前 移 了 iprtd->poll time ns 纳 秒 ， 这 
样 周而复始 ; 直到 声卡 被 关闭 ， 第 37 行 义 调用 了 hrtimer cancel O 取消 在 open 时 初始 化 的 hrtimer。 


10.5.2 ”内 核 中 延迟 的 工作 delayed_work 


对 于 周期 性 的 任务 ， 除 了 定时 可 以 外 ， 在 Linux 内 核 中 还 可 以 利用 一 僚 封 泽 得 很 好 的 快捷 机 制 ， 其 本 
质 是 利用 工作 队列 和 定时 夫 实 现 ， 这 笃 快捷 机 制 融 定 delayed_work，delayed_work 结 构 体 的 定义 如 代码 清单 


10.12 上 所 示 。 


代码 清单 10.12 delayed work 结构 体 


lstruct delayed work 4 
SLruct work STFUCE WOEZK; 
StLUGCE LiMer Liot Tamer; 


/* target workqueue and CPU ->timer uses to queue ->work */ 
Struct workqueue Struct wa, 
int cpu; 


COND OB CO P2 


Ye 
“Ne 


我 们 可 以 通过 如 下 函数 调度 一 个 delayed_work 在 指定 的 延 时 后 执行 : 


int schedule delayed work(struct delayed work *work, unsigned long delay); 


当 指 定 的 delay 到 来 时 ，delayed _ work 结构 体 中 的 work 成 员 work func tŒ py, n func. ©) 会 被 执行 。 


work func t 类 型 定义 为 : 
typedef void (*work func t) (struct work struct *work); 
其 中 ，delay 参 数 的 单位 是 ji 全 es， 因 此 一 种 常见 的 用 法 如 下 : 
schedule delayed work(&work, msecs to jiffies(poll interval)); 
msecs to jiffies OO H Tee Mb FE 7 jjiffies. 


ur AR A] HAE HST TES. X8 zfEdelayed _ work 的 工作 函数 中 再 次 调用 schedule delayed work ©) , 
周而复始 。 


"ll F RAH HEYA delayed work: 


int Cancel delayed work(Struct: delayed work "work; 
int cancel delayed work. sync(struct delayed work *“work); 


10.5.3 SLU: 秒 字 符 设 备 


下 和 面 我 们 编写 一 个 字符 设备 “second”( 即 “ 秒 ”) 的 驱动 ， 它 在 被 打开 的 时 低 初 始 化 一 个 定时 问 并 将 其 
深 加 到 内 核定 时 占 链 表 中 ， 每 秒 输出 一 次 当前 的 ji 从 es (为 些 ， 定 时 问 处 理 冰 数 中 每 次 都 要 修改 新 的 
expires) ， 整 个 程序 如 代码 清单 10.13 所 示 。 


代码 清单 10.13 ”使 用 内 核定 时 亏 的 second 字 人 符 设 备 豫 动 


1£include <linux/module.h> 

2#include <linux/fs.h> 

3#include <linux/mm.h> 

A#include «linux/init.h» 

5#include <linux/cdev.h> 

6#include <linux/slab.h> 

7#include <linux/uaccess.h> 

8 

9#define SECOND MAJOR 248 
10 
listatic int second major = SECOND MAJOR; 
12module param(second major, int, S IRUGO); 


13 

I4S5Strügt second dev 4 

Lo struct xcdev dev} 

16 atomic t counter; 

17 Struct. timer List 3 timer; 

18}; 

19 

ZUÜSUCHLIOC Struct Second dev “second devni 

21 

22static void second timer handler(unsigned long arg) 

234 

24 mod timer(&second devp->s timer, jiffies + HZ); /* 触发 下 一 次 定时 */ 
25 atomic inc(&second devp-»counter); /* 增加 秒 计数 * / 
26 

27 printk(KERN INFO "current jiffies is $1d*Xn", jiffies); 

20 

29 

US Int. second open(istruct 1ncde “rode, SCtEUOL tite. *T1i1D) 
CE 

22 Sit timer (ssecond Gevp-ss Lanier); 

29 Second. devpess timer.funcricon = «second timer gnandler; 

24 Second devpecss trmer.expilres = gJirirlies + HA; 

35 

26 add ctumeri(esecond devpes CLIMEI)? 

J] 

39. atomic set (second devyp=->counter, 0); /* 初始 化 秒 计数 为 0 大/ 
39 

40 return O0; 

41] 

42 

doo raLIo ane Second release(strucc anode “inode, Sueruct Tile *rLr1lp) 
44 { 

45 del timer(&second devp-»s timer); 

46 

47 return 0; 

48} 

49 

JUStalic Ssize t Second read(Strüct file *filp, char user * bur, size t count; 
IL LOIL E * DDOBR) 

52 { 

03 10L gounter? 

54 

ga counter = atomic rXeadi&ssecond devp-»counter); 

56 if (put user (counter, (int *)buf))/* 复制 Counter 到 userspace */ 
Su frerurm. -EFAULT} 

58 else 

59 return sizeof (unsigned int); 

60] 

61 

62Scalic CONSE. Struct file Operations second Tops Ss | 

0o JOwner = THiS MODULE, 

04. .Open = second open, 

GS. release = Second: release, 

00 «(Gad = Second read; 

67); 


68 


O9Starrlo vod Second setup cdev(struct second dev “dev, umi. Index) 
TOA 

Tl EOE err, deuno = MADEY (second mayor, Dde)? 

GZ 

To Cder ANTE (edev->cdev, «second TOps); 

TA ddevescgev.owner = THIS MODULE; 


Xo Grr —goev.addiedev-^cdev, -devnuo,. 1); 

76 if (err) 

T3 printk(KERN ERR "Failed to add second device Wn"); 
78] 

79 

SUSTALLC INE: Inre Second IBIbE(vord) 

Ou 


Do ITE, REUS 
oS. dev "D deuno = MKDEV(Second mayor, J7 


84 

o9. Xf (Second: mayor) 

86 ret > egrster chrdev regronidevho, Ly “second')7 
87 else { 

88 ret - alloc chvdey. teg1onicdevnG;, Ur ll "Seocond"5- 
89 second major - MAJOR (devno); 

90 } 

91 if (ret « O0) 

92 Fel gm uet. 

93 


94. second devp = .kzalloc(sizeor(*second devp), ‘GFP KERNEL); 
99 uf «Second devp).u 


96 ret. = cENOMEM; 
91 FOLO “Paw. Mal Loe; 
98 
29 
LOU: second: setup cdev(second devp; Ury 
1:03 
LOZ) return. 07 
103 


LO4rarl malloc: 
10> unreglister chrdev regrontdevno, 3 
POG: SLU: ety 


107 } 

l0Smogdule anit (second INEL)? 

109 

LEUG CAT TO WO: . Gxt Second exubCVOrXd) 
111{ 


Ila ‘dev del(ssecond devpsescoev)s 

LLS "Se (Second devp); 

114 unregister chrdev regron(MKDEYV (second major; 0); LX? 
aS 

Liemodüule cxl (second. ex ru); 

FEJ 

IISMODULE AUTROR("Barry Song «21cnbaoGgmarl.com»'); 
119MODUBE. LICENSE ("GPL v2"); 


在 Second 的 open〈) Pa, e SEIN as. US Else Rie fT FEI ak MSH KAY, FE seconde’) 
release O PRAM, FEM ae SOM ER e 


second dev£iT4 AF HY RFA E counterH] T PtP, EVR TE TE IY d ATH p Be a] FA atomic inc O 会 
令 其 原子 性 地 增 1，second 的 read ©) 函数 会 将 这 个 值 返 回 给 用 户 空 间 。 


本 书 配 登 的 Ubuntu 中 /home/baohua/develop/training/kernel/drivers/second/ 包 含 了 second 设 备 驱 动 以 及 
second test.c 用 尸 空间 测试 程序 ， 运 行 make 命 令 编译 得 到 second.ko 和 second_test， 加 载 second.ko 内 核 模块 并 
创建 /dev/second 设 备 文件 节点 : 


41 mknod /dev/second c 248. 0 


Ar 810.1425 h f second test. xA MHIE, "E $T2T/dev/second, H) A Br i X BL /dev/second ig 
备 文 件 打开 以 后 经 历 的 秒 数 。 


代码 清单 10.14 secondi H J^ E [RJ IU EE FF 


1#include 

2 

3main() 

4{ 

o ant dg; 

6 ant counter = 0; 

f ane old counter = 0; 
8 


9 /* 打开 /dev/second 设 备 文件 */ 
10 fd = open("/dev/second", O RDONLY); 


11 if (fd != ~ 1) { 

13 while (1) { 

19 read(fd,&counter, sizeof (unsigned int));/* MAMAnAKhe */ 
16 LE (counter DO -counver) 1 

18 printf("seconds after open /dev/second :%d\n",counter) ; 
19 old Counter = counter, 

20 } 

21 } 

A, } else | 

z printi ("Device open failure\n"); 

26 } 

27] 


内 核 将 不 断 地 输出 目前 的 ji 从 es 值 : 


运行 Second test 后 ， 


13935.122095] current jJiffies is 13655122 


[ ] 

[13936.124441] current jiffies is 13636124 
[13937.126078] current jifries i8 13637126 
[13952.9320498] current jifries ris 1306529032 
[13953.834078] current jiffies is 13653834 
[13954.836090] current jiffies is 13654836 
]11.3955,98235309] current jiirire6s zs 156059959 
[13956.840453] current jiffies is 13656840 


从 上 述 内 核 的 打印 消息 也 可 以 看 出 ， 本 书 配套 Ubuntu 上 的 每 秒 jifies 大 概 走 1000 次 。 而 应 用 程序 将 不 


ar ay HL H /dec/second17 F A aA We Be: 


# ./second test 


seconds after open /dev/second : 


seconds after open /dev/second 


seconds after open /dev/second : 
seconds after open /dev/second : 


seconds after open /dev/second 


CH A Go BO Fr 


10.6 内核 延 时 
10.6.1 £d uER 


Linux 内 核 中 提供 了 下 列 3 个 函数 以 分 别 进行 纳 秒 、 微 秒 和 坚 秒 延迟 : 


void ndelay(unsigned long nsecs); 
void udelay(unsigned long usecs); 
void mdelay(unsigned long msecs); 


上 述 延 人 运 的 实现 原理 本 质 上 是 忙 等 待 ， 它 根据 CPU 频 率 进 行 一 定 次 数 的 循环 。 有 时候 ， 人 们 在 软件 中 
BET PAY WEIR 
void delay(unsigned int time) 
{ 


while (time--); 


} 


ndelay €) . udelay Ò #ilmdelay O 函数 的 实现 方式 原理 与 此 类 似 。 内 核 在 局 动 时 ， 会 运行 一 个 延迟 
循环 校准 (Delay Loop Calibration) ， 计 算出 lpj (Loops Per Jiffy) ， 内 核 局 动 时 会 打印 如 下 类 似 信 息 : 


Calibrating delay loop... 530.84 BogoMIPS (1pj-21327104) 


TR AL] ECBEfEbootloaderfz 38 25 V] TZ H']bootargs"H v &ilpj21327104, WAY UARAN E, B 
BA E ee& b ZR PALIN E. 


坚 秒 时 延 〈 以 及 更 大 的 秒 时 延 ) 己 经 比较 大 了 ， 在 内 核 中 ， 最 好 个 要 年 接 使 用 mdelay() 函数 ， 这 将 
耗费 CPU 资产， 对 于 坚 秒 级 以 上 的 时 延 ， 内 核 提 供 了 下 述 函 数 : 


void msleep(unsigned int millisecs); 
unsigned long msleep interruptible(unsigned int millisecs); 
void ssleep(unsigned int seconds); 


EIR ROKET HJ €: ANTE He BER ZA ZA 38 «E HIIS] IH] Aymillisecs, msleep © ~ ssleep ©) /BESETT T, 
而 msleep_interruptible €) MI) nf LA@EFT Wr. 


RA msleep ©) 关 似 函数 的 精度 是 有 限 的 。 


10.6.2 ”长 延迟 


在 内 核 中 进行 延迟 的 一 个 很 直观 的 方法 是 比较 当前 的 jites 和 目标 ji 锚 es《〈 设 置 为 当前 jifes 加 上 时 间 间 
隔 的 jifies) ， 直 到 未 来 的 jifes 达 到 目标 jifies。 人 代码 清单 10.15 给 出 了 使 用 忙 等 竺 先 延 民 100 个 jites 再 延迟 
2s 的 实例 。 


代码 清单 10.15 ”人 忙 等 待 时 延 实例 


1/* &BRl00T^jiffies */ 

2unsigned long delay = jiffies + 100; 
Sswhile (tame before(jiffies, delay)); 

4 

5/* JuER2S */ 

ounsigned long delay = jiffies + 2*Hz; 
7while(time before(jiffies, delay)); 


与 time before ©) 对 应 的 还 有 一 个 time after O ， 它 们 在 内 核 中 定义 为 (实际 上 只 是 将 传 入 的 未 来 时 
间 jifies 和 被 调用 时 的 jifies 进 行 一 个 简单 的 比较 ) : 


(typecheck (unsigned long, 
typecheck (unsigned long, b 
( (long) (b) - (long) (a) < 0)) 
#define time before(a,b) time &arter(b;a) 


#define time after (a,b) N 
a) 
) 


&& AN 
&& \ 


为 了 防止 在 time before ©) 和 time after OO BS ELTOSUEE HP nikariek, A ROR E CA 
volatile Ek, ROR TRUER ABS HEU AERE. Btvolatilet € PEH ce hE fioi GFF 


10.6.3 ”有 睡 着 延迟 


睡 着 延迟 无 疑 是 比 忙 等 待 更 好 的 方式 ， 睡 着 延迟 是 在 等 待 的 时 间 到 来 之 前 进程 处 于 睡眠 状态 ，CPU 资 
源 被 其 他 进程 使 用 。schedule_ timeout ©) 可 以 使 当前 任务 休眠 至 指定 的 jifies 之 后 再 重新 被 调度 执行 ， 
msleep (Ò #llmsleep_interruptible O EAH Es ze KSEE J schedule timeout €) 的 
schedule timeout uninterruptible () 和 schedule timeout interruptible © 来 实现 的 ， 如 代码 清单 10.16 所 示 。 


代码 清单 10.16 schedule timeout ©) 的 使 用 


lvoid msleep (unsigned int msecs) 


21 

3 unsigned long Timecuc = msecs tO J]irrriesimsecs) + 17 

4 

5 while (timeout) 

6 timeout = schedule timeout uninterruptible (timeout); 
1] 


8 
?unsligned Long msleep interruptible(unsigned Int mseocs) 


1:04 

UB unsigned long Timeout = msecs. to jrrries(Qmseos) s. 
12 

13 while (timeout && !signal pending (current)) 

14 tumeouc = schedule timeout. snrterruptuble(Limecur), 
lo. LSCULH JLLLres to moecoslLHleoub). 

16} 


实际 上 ，schedule timeout ©) MEMEH ERARI EIN 38. FE RE EN aS BH py ACH] E E; Zs By 
对 应 的 进程 。 


代码 清单 10.16 中 第 6 行 和 第 14 行 分 别 调用 Schedule timeout uninterruptible () 和 
schedule timeout interruptible C) ， 这 两 个 函数 的 区 别 在 于 前 者 在 调用 schedule timeout O 之 前 置 进程 状 
态 为 TASK INTERRUPTIBLE， 后 者 置 进程 状态 为 TASK UNINTERRUPTIBLE， 如 代码 清单 10.17 所 示 。 


代码 清单 10.17 schedule timeout interruptible (Ò 和 schedule timeout interruptible ©) 


lsigned long sched schedule timeout interruptible(signed long timeout) 
241 
3. | met Current. StatetLASK INTERRUPTIBLDEJ; 
4 return schedule timeout (timeout); 
23 
6 
7eugned Long .. sched schedule timeout uninterruüptible(signed long timeouLb) 
8 { 
ascii 
10 return schedule timeout (timeout); 
11} 


23j9h. FP EPA eR a FY DA SE Ee as BS te A, MAESA ERER. SENTRE, 3E 
Fete ORME Cae n] AE BU LTT IST) : 


sleep on timeout(wait queue head t *q, unsigned long timeout); 
interruptible sleep on timeout(wait queue head t*q, unsigned long timeout); 


10.7 J£ 


Linux 的 中 断 处 理 分 为 两 个 半 部 ， 顶 半 部 处 理 紧 急 的 人 硬件 操作 ， 捕 半 部 处 理 不 案 忽 的 耗 时 操作 。tasklet 
和 工作 队列 都 是 调度 中 断 底 半 部 的 良好 机 制 ，tasklet 基 于 软 中 断 实 现 。 内 核定 时 器 也 依靠 软 中 断 实现 。 


内 核 中 的 延 时 可 以 采用 忙 等 待 或 睡眠 等 待 ， 为 了 充分 利用 CPU 资源 ， 使 系统 有 更 好 的 吞吐 性 能 ， 在 对 
延迟 时 间 的 要 求 并 不 是 很 精确 的 情况 下 ， 睡 眠 等 待 通常 是 值得 推荐 的 ， 而 adelay © 、udelay O 忙 等 竺 
机 制 在 驱动 中 通常 是 为 了 配合 硬件 上 的 短 时 延迟 要 求 。 


elle ”内存 与 VO 访问 
本 章 导读 


由 于 Linux 系 统 提 供 了 复杂 的 内 存 管理 功能 ， 所 以 内 存 的 概念 在 Linux 系 统 中 相对 复杂 ， 有 和 钊 规 内 存 、 
高 端 内 存 、 虚 拟 地 址 、 逻 辑 地 址 、 总 线 地 址 、 物 理 地 址 、L/O 内 存 、 设 备 内 存 、 预 留 内 存 等 概念 。 本 章 将 
系统 地 讲解 内 存 和 LO 的 访问 编程 ， 斋 读者 走出 内 存 和 LO 的 概念 迷宫 。 


11.1 攻 讲解 内 存 和 IO 的 使 件 机 制 ， 主 要 涉及 内 存 空间 、LIO 空 间 和 MMU。 
11.2 廊 讲解 Linux 的 内 存 官 理 、 内 存 区 域 的 分 布 、 和 剃 规 内 存 与 局 病 内 存 的 区 列 。 
11.3 廊 讲解 Linux 内 和 存 存 取 的 方法 ， 主 要 涉及 内 存 动态 申请 以 及 通过 虚拟 地 址 和 存 取 物理 地 址 的 方法 。 


11.4 市 讲解 设备 VO 病 口 和 LO 内 存 有 的 访问 流程 ， 这 一 市 对 于 编写 设备 驱动 的 音义 非 单 睾 大 ， 设 备 驱动 
使 用 此 市 的 方法 访问 物理 设备 。 


11.$ 节 讲解 IJO 内 存 静 态 映 射 。 


11.6 节 讲解 设备 驱动 中 的 DMA 与 Cache 一 致 性 问题 以 及 DMA 的 编程 方法 。 


11.1 CPU 与 内 存 、LIO 
11.1.1 A fée IR] ESTO IR] 

在 X86 处 理 器 中 存在 着 1/O 空 间 的 概念 ，L/O 空 间 是 相对 于 内 存 空间 而 言 的 ， 它 通过 特定 的 指令 in、out 
来 访问 。 端 口号 标识 了 外 设 的 寄存 器 地 址 。Intel 语 法 中 的 in、out 指 令 格 式 如 下 : 


IN 累加 器 ， {端口 号 | DX} 
OUT {端口 号 | DX}， 累加 器 


目前 ， 大 多 数据 入 式微 控制 器 (如 ARM、PowerPC 等 ) 中 并 不 提供 VO 空间 ， 而 仅 存 在 内 存 空间 。 内 
存 空间 可 以 了 古 接 通过 地 址 、 指 针 来 访问 ， 程 序 及 在 程序 运行 中 使 用 的 变量 和 其 他 数据 都 存在 于 内 存 空 间 
中 。 


内 存 地 址 可 以 直接 由 C 语 言 指针 操作 ， 例 如 在 186 处 理 老 中 执行 如 下 代 伍 : 


unsigned char *p = (unsigned char *)OxFOO0FF00; 
Kn— e 
p=11; 


以 上 程序 的 意义 是 在 绝对 地 址 9xF0000+0xFF00 (186 处 理 器 使 用 16 位 段 地 址 和 16 位 偏 移 地 址 〉 中 写 入 
ll. 


而 在 ARM、 了 PowerPC 等 未 采用 段 地 址 的 处 理 器 中 ，p 指 向 的 内 存 空间 就 是 0xF000FF00， 而 *sp=11 就 是 
在 该 地 址 写 入 11。 


再 如 ，186 处 理 器 启动 后 会 在 绝对 地 址 0xFFFF0 (对 应 的 C 语 言 指 针 是 0xF000FFF0，0xF000 为 段 地 
址 ，0xFFF0 为 段 内 偏 移 〉 中 执行 ， 请 看 下 面 的 代码 : 








typederf void t(*bprunction) 1 97 /* 定义 一 个 无 参数 、 无 返回 类 型 的 函数 指针 类 型 / 
lpFunction lpReset = (lpFunction) OxFOOOFFFO; /* 定义 一 个 函数 指针 ， 指 向 */ 
/* CPU 启动 后 所 执行 的 第 一 条 指令 的 位 置 */ 

lpReset(); /* 调用 函数 */ 


在 以 上 程序 中 ， 没 有 定义 任何 一 个 函数 实体 ， 但 是 程序 却 执行 了 这 样 的 函数 调用 : IpReset O , “ESE 
际 上 起 到 了 “ 软 章 局 ”的 作用 ， 跳 转 到 CPU 局 动 后 第 一 条 要 执行 的 指令 的 位 置 。 因 此 ， 可 以 通过 函数 指针 调 
用 一 个 疫 有 函数 体 的 “ 梢 数 ”， 这 本 质 上 只 是 换 一 个 地 址 开始 执行 。 


即便 是 在 X86 处 理 嚣 中， 虽然 提供 了 IO 空间 ， 如 果 由 我 们 目 己 设计 电路 板 ， 外 设 仍然 可 以 只 挂 接 在 
内 存 衬 间 中 。 此 时 ，CPU 可 以 像 访 问 一 个 内 存单 元 那样 访问 外 设 IO 疹 口 ， 而 不 需要 设立 专门 的 IO 指令 。 
因此 ， 内 存 空间 是 必需 的 ， 而 WO 空间 是 可 选 的 。 图 11.1 给 出 了 内 存 空 间 和 LO 空间 的 对 比 。 





图 11.1 ”内存 空间 和 LO 空间 


11.1.2 HET ER ZU 


高 性 能 处 理 器 一 般 会 提供 一 个 内 存 管理 单元 (MMU) ， 该 单元 辅助 操作 系统 进行 内 存 管 理 ， 提 供 虚 
拟 地 址 和 物理 地 址 的 映射 、 凡 存 访问 权限 你 护 和 Cache 缓 仓 控制 等 便 件 文 持 。 拘 作 系 统 内 核 信 助 MMU 可 以 
让 用 户 感 沉 到 程序 好 像 可 以 使 用 非 第 大 的 内 存 空 间 ， 从 而 使 得 编程 人 员 在 号 程序 时 个 用 考虑 计算 机 中 物理 


内 存 的 实际 容量 。 
为 了 理解 基本 的 MMU 操 作 原 理 ， 需 先 明 晰 几 个 概念 。 


1? TLB (Translation Lookaside Buffer) : 即 转换 劳 路 缓存 ，TLB 是 MMU 的 核心 部 件 ， 它 绥 存 少量 的 
庶 拟 地 址 与 物理 地 址 的 转换 关系 ， 是 转换 表 的 Cache， 因 此 也 经 间 被 称 为 “ 快 表 ?”。 


2) TTW (Translation Table walk) : 即 转换 表 漫 游 ， 当 TLB 中 没有 绥 冲 对 应 的 地 址 转换 关系 时 ， 需 要 
通过 对 内 存 中 转换 表 〈( 大 多 数 处 理 右 的 转换 表 为 多 级 页 表 ， 如 图 11.2 所 示 〉 的 访问 来 获得 虚拟 地 址 和 物理 
地 址 的 对 应 关系 。TTW 成 功 后 ， 结 果 应 与 入 TLB 中 。 


页 表 基 址 寄存 器 


一 级 页 表 -级 页 表 


图 11.2 ”内 存 中 的 转换 表 


图 11.3 给 出 了 一 个 典型 的 ARM 处 理 器 访问 内 存 的 过 程 ， 其 他 处 理 器 也 执行 类 似 过 程 。 当 ARM 要 访问 
存储 右 时 ，MMU 先 但 找 TLB 中 的 虚拟 地 址 表 。 如 果 ARM 的 结构 文 持 分 开 的 数据 TLB CDTLBO 和 指令 
TLB (ITLB〉， 则 除了 取 指 令 使 用 ITLB 外 ， 其 他 的 都 使 用 DTLB。ARM 人 处 理 器 的 MMU 如 图 11.3 所 示 。 





图 11.3 ”ARM 人 处理 器 的 MMU 


大 TLB 中 没有 虚拟 地 址 的 入 口 ， 则 转换 表 衣 历 便 件 并 从 存放 于 主 存储 右 内 的 转换 表 中 获取 地 址 转换 信 
息 和 访问 权限 〈( 即 执行 TW)〉， 同 时 将 这 些 信息 放 入 TLB， 它 或 者 被 放 在 一 个 没有 使 用 的 入 口 或 者 蔡 换 
一 个 已 经 存在 的 入 口 。 之 后 ， 在 TLB 条 目 中 控制 信息 的 控制 下 ， 当 访问 权限 允许 时 ， 对 真实 物理 地 址 的 访 
问 将 在 Cache 或 者 在 内 存 中 友 生 ， 如 图 11.4 所 示 。 










Ge E 


访问 内 存 


访问 内 存 
访问 Cache 更 新 Cache 


图 11.4 ARM CPU 进行 数据 访问 的 流程 





ARM 内 TLB 和 条目 中 的 控制 信息 用 于 控制 对 对 应 地 址 的 访问 权限 以 及 Cache 的 操作 。 


C (高 速 缓存 ) 和 B (缓冲 ) 位 被 用 来 控制 对 应 地 址 的 高 速 缓存 和 写 缓冲 ， 并 决定 是 否 进行 高 速 组 
存 。 


访问 权限 和 域 位 用 来 控制 读 写 访问 是 否 被 允许 。 如 果 不 多 许 ，MMU 则 向 ARM 处 理 器 发 送 一 个 存储 


器 异常 ， 否 则 访问 将 被 允许 进行 。 


上 述 描 述 的 MMU 机 制 针对 的 虽然 是 ARM 处 理 器 ， 但 PowerPC、MIPS 等 其 他 处 理 器 也 均 有 类 似 的 操 
作 。 


MMU 具 有 虚拟 地 址 和 物理 地 址 转换 、 内 存 访 问 权 限 你 护 等 功能 ， 这 将 使 得 Linux 操 作 系 统 能 早 独 为 系 
统 的 每 个 用 户 进程 分 配 独立 的 内 存 空间 并 你 证 用 户 空 间 不 能 访问 内 核 衬 间 的 地 址 ， 为 操作 系统 的 虚拟 内 存 
官 理 檬 块 据 供 便 件 基础 。 


在 Linux 2.6.11 之 前 ，Linux 内 核 价 件 无 天 层 使 用 了 三 级 忠 表 PGD、PMD 和 PTE; 从 Linux 2.6.11 开 始 ， 
为 了 配合 64 位 CPU 的 体系 结构 ， 硬 件 无 关 层 则 使 用 了 4 级 页 表 目 录 管 理 的 方式 ， 即 PGD、PUD、PMD 和 
PTE。 注 意 这 仅仅 是 一 种 软件 意义 上 的 抽象 ， 实 际 便 件 的 页 表 级 数 可 能 少 于 4。 代 码 清单 11.1 给 出 了 一 个 
典型 的 从 虚拟 地 址 得 到 PTE 的 页 表 查 询 (Page Table Walk) 过 程 ， 它 取 自 


arch/arm/lib/uaccess with memcpy.c. 
代码 清单 11.1 Linux 的 四 级 页 表 与 页 表 查 询 


ilsratic THE 


2prn page LOr write (CONST vord deser T addr, PCS t Aprep spun lock G ADELE) 


4 unsigned long addr = (unsigned long) addr; 
> pgd t *pgd; 

0 pmd t *pmo 

4; DES. E. “pte; 

D puc t ^p 

JOPI nL: uw pul 


10 

li. -pgd = pgoa- otftfseticurrent-»mm, ddr); 

12 if (unlikely (pgd none(*pgd) || pgd bad(*pgd) )) 
no return 0; 

14 

l5 pud puc oOLISeUtipgd; addr); 

iG. at (unlikely (pud- none (*pud). Ik pud -Dad pudy 
17 return 0; 

18 


L19 pmd = pmd-ofisetpüd; addr); 
20 if (unlikely(pmd none(*pmd))) 


2l return 0; 

2 

2S: ee 

24 * A pmd can be bad if it refers to a HugeTLB or THP page. 
Zo F 

26 * Both THP and HugeTLB pages have the same pmd layout 
21] * and should not be manipulated by the pte functions. 
Zr 9 

29 * Lock the page table for the destination and check 

30 * to see that it's still huge and whether or not we will 
31 * need to fault on write, or if we have a splitting THP. 
32. EJ 

39 HL (unlrkelyi(pmae thp~or nuget^pmd))3. 

34 pul = $current-^mm--page table Tock; 

33 Spin lock (pel) 7 

36 Lr. (unlikely (pmd thp Or hugel pmd) 

37 || pmd hugewillfault (*pmd) 

38 | p:pmd Lranse-splrubssegt*5pmd)a3 4 

39 Spin unboock0pUtL). 

40 return: 03; 

41 } 

42 

43 *ptep = NULL; 

44 Too e Dui 

45 return 1; 

46 } 

47 

48 if (unlikely(pmd bad(*pmd))) 

49 return 0; 

o0 

o1 pte = pte Offset. map.dock(curregnt- omm, pmd Addr; ptl)s 
92 aq (Untikely( pre. presenut* pce) | Spe voungt*pteJ's 
T Ere WeLLe(* pre) ‘|i. APTE CLE poe) A 

54 pte unmap unlock(pte, ptl); 

3 return 0; 

90 J 

oy 


58 *ptep = pte; 
Oe SOtL es DEI 


61 return 1; 
62] 


第 1 行 的 类 型 为 struct， pn # 程 所 占有 的 内 存 资 源 。 上 述 代码 中 的 
pgd_offset、pud_offset、pmd_offset 分 列 用 于 得 到 一 级 页 表 、 二 级 由 表 和 三 级 由 表 的 入 口 ， 最 后 通过 
pte offset map lock 得 到 目标 页 表 项 pte。 而 且 第 33 行 还 通过 pmd thp or huge O 判断 是 否 有 巨 页 的 情况 ， 
WREEK, WEA Epmd. 


(Axe, MMUŽ DERA AERE mH), Bas H SAMSUNG T ARM7TDMUR 4 
S3C44BOX 不 附带 MMU， 新 版 的 Linux 2.6 支 持 不 带 MMU 的 处 理 器 。 在 先入 式 系 统 中 ， 仍 存在 大 量 无 MMU 
的 处 理 器 ，Linux 2.6 为 了 更 广泛 地 应 用 于 磐 入 式 系统 ， 融 合 了 mcClinux， 以 文 持 这 些 无 MMU 系 统 ， 如 
Dragonball. ColdFire. Hitachi H8/300、Blackfin 等 。 


11.2 Linux 内 存 管理 


对 于 包 人 台 MMU 的 处 理 融 而 言 ，Linux 系 统 所 做 了 复杂 的 存储 官 理 系统 ， 使 得 进程 所 能 访问 的 内 存 达 到 
4GB. 


在 Linux 系 统 中 ， 进 程 的 4GB 内 存 空间 被 分 为 两 个 部 分 一 一 用 户 空间 与 内 核 空间 。 用 户 空间 的 地 址 一 
般 分 布 为 0~3GB〈 即 PAGE_OFFSET， 在 0x86 中 它 等 于 0xC0000000〉 ， 这 样 ， 剩 下 的 3~4GB 为 内 核 空间 ， 
如 图 11.5 所 示 。 用 户 进 程 通常 只 能 访问 用 户 空间 的 虚拟 地 址 ， 不 能 访问 内 核 空间 的 虚拟 地 址 。 用 户 进程 只 
有 通过 系统 调用 《代表 用 户 进 程 在 内 核 态 执行 ) 等 方式 才 可 以 访问 到 内 核 空 间 。 


内 核 空 间 
M 4% 2> JH 
—PAGE_OFFSET— 3GB o 
2GB 
^r | 
IGB n ELO 
0 


A115 用 户 空 间 与 内 核 空 间 


每 个 进程 的 用 户 衬 间 都 是 完全 独立 、 互 不 相干 的 ， 用 户 进程 各 目 有 不 同 的 页 硼 。 而 丹 核 空间 征 由 内 核 
人 负 贡 映 冉 ， 它 并 不 会 跟 看 进程 改变 ， 十 固定 的 。 内 核 空 间 的 虚拟 地 址 到 物理 地 址 映 册 是 被 所 有 进程 共 圣 
的 ， 内 核 的 虚拟 空间 独立 于 其 他 程序 。 


Linux 中 1GB 的 内 核 地 址 空间 义 补 划分 为 物理 内 存 映 冉 区 、 虚 拟 内 存 分 配 区 、 局 闹 页 面 映 册 区 、 专 用 
页 面 映 射 区 和 系统 你 留 映 射 区 这 几 个 区 域 ， 如 图 11.6 所 示 。 










保留 区 
专用 页 面 映射 区 


* oc 虚拟 内 存 分 配 X 
物理 内 存 Linux 内 核 空间 
311.6 ”32 位 x86 系 统 Linux 内 核 的 地 址 空间 


对 于 x86 系 统 而 言 ， 一 般 情况 下 ， 物 理 内 存 了 映射 区 最 大 长 度 为 896MB， 系 统 的 物理 内 存 极 顺序 映射 在 
内 核 空 间 的 这 个 区 域 中 。 当 系统 物理 内 存 大 于 896MB 时 ， 超 过 物理 内 存 映射 区 的 那 部 分 内 存 称 为 高 端 内 
和 存 《 而 未 超过 物理 内 存 映 冉 区 的 内 和 存 退 闸 被 称 为 第 规 内 和 存 )， 内 核 在 存 取 噩 师 内 存 时 必须 将 它们 映射 到 融 
i W E RT X. o 


Linux 保 留 内 核 空间 最 顶部 FIXADDR TOP~4GB 的 区 域 作为 保留 区 。 


么 接着 最 顶端 的 保留 区 以 下 的 一 段 区 域 为 专用 页 面 映 射 区 (FIXADDR START-FIXADDR TOP) , 


它 的 总 尺寸 和 每 一 页 的 用 途 由 fixed_address 枚 举 结构 在 编 详 时 预定 义 ， 用 _fix to virt Cindex) 可 获取 专用 
区 内 预定 义 页 面 的 逻辑 地 址 。 其 开始 地 址 和 结束 地 址 宏 定 义 如 下 : 


efine FIXADDR START (FIXADDR TOP - FIXADDR SIZE) 
#define FIXADDR TOP ((unsigned long) | FIXADDR TOP) 
#define |  FIXADDR TOP Oxfffff000 


Be ROR, WRASACE SMA. MMF EHR mI PB E E in A RE, EE 
地 址 为 PKMAP BASE， 定 义 如 下 : 


efine PKMAP BASE ( (FIXADDR BOOT START = PAGE SIZE* (LAST PKMAP + 1)) & PMD MASK ) 


其 中 所 涉及 的 安定 义 如 下 : 


#define FIXADDR BOOT START (FIXADDR TOP - | FIXADDR BOOT SIZE) 
#define LAST PKMAP PTRS PER PTE 

#define PTRS PER PTE 512 

#define PMD MASK (~ (PMD SIZE-1)) 

# define PMD SIZE (1UL << PMD SHIFT) 

#define PMD SHIFT 21 


在 物理 区 和 高 端 映射 区 之 间 为 虚拟 内 存 分 配器 区 (VMALLOC START-VMALLOC END) ， 用 于 
vmalloc €) 函数 ， 它 的 前 部 与 物理 内 存 映 射 区 有 一 个 隔离 市 ， 后 部 与 高 病 映 射 区 也 有 一 个 隔离 市 ， 
vmalloc 区 域 定 义 如 下 : 


i#define VMALLOC OFFSET (8*1024*1024) 


#define VMALLOC START (((unsigned long) high memory + 
vmalloc earlyreserve + Z'"VMALLOG OEFESEI-I) & *(VMALBOGC OBRFSEI-IL)J 
#ifdef CONFIG HIGHMEM /* 支持 高 端 内 存 * / 
# define VMALLOC END (PKMAP BASE-2*PAGE SIZE) 
#telse /* 不 支持 高 端 内 存 */ 
# define VMALLOC END (FIXADDR START-Z^PAGE SIZE} 
#endif 


当 系 统 物理 内 存 超过 4GB 时 ， 必 须 使 用 CPU 的 扩展 分 页 (PAE) 模式 所 提供 的 64 位 页 目录 项 才能 和 存 取 
到 4GB 以 上 的 物理 内 存 ， 这 需要 CPU 的 支持 。 加 入 了 PAE 功 能 的 Intel Pentium Pro 及 以 后 的 CPU 人 允许 内 存 最 
大 可 配置 到 64GB， 它 们 具备 36 位 物理 地 址 空间 寻 址 能 


由 此 可 匈 ， 对 于 32 位 的 x86 而 言 ， 在 3~4GB 之 间 的 内 核 宇 间 中 ， 从 低地 址 到 融 地 址 依次 为 : RP E 
BUR DX B8 A Tir vmalloc fie 301 4 FFP Bo si DX — BS I t — re 3 P T£ EL] DX — 7 Hd va T ALS DX P BX. o 


百 接 进行 映射 的 896MB 物 理 内 存 其 实 驻 分 为 两 个 区 域 ， 在 低 于 16MB 的 区 域 ，ISA 设 备 可 以 做 DMA， 
所 以 该 区 域 为 DMA 区 域 (内 核 为 了 保证 ISA 了 驱动 在 申请 DMA 绥 冲 区 的 时 候 ， 通 过 GFP DMA 标 记 可 以 确保 
申请 到 16MB 以 内 的 内 存 ， 所 以 必须 把 这 个 区 域 列 为 一 个 单独 的 区 域 窜 理 ) ; 16MB-896MBZ IR] BS Z8 Be 
DXX. mr T 896MBI SUPR ZJ Fam PE DCTÀ T o 


324 ARM Linux) A TZ zx [R] HE HUS] Ej xS6 A4 A HE HER SC Documentation/arm/memory.txt25 t f 


ARM Linux 的 内 存 映 射 情 况 。0xfff0000~0xfft 仁 是 “CPU vector page”, EN EK AHEHE. 
0xffc00000~0xffeffff 是 DMA 内 存 映 射 区 域 ，dma alloc xxx 族 函数 把 DMA 绥 冲 区 映射 在 这 一 段 ， 

VMALLOC START-VMALLOC _ END-1 十 vmalloc 和 ioremap 区 域 〈 在 vmalloc 区 域 的 大 小 可 以 配置 ， 通 

过 “vmalloc=” 这 个 启动 参数 可 以 指定 ) ，PAGE OFFSET~high memory-1 是 DMA 和 正常 区 域 的 映射 区 域 ， 
MODULES VADDR-MODULES END-1 是 内 核 模块 区 域 ，PKMAP BASE-PAGE OFFSET-1é mi Yim P T£ HÀ 
射 区 。 假 设 我 们 把 PAGE OFFSET 和 定义 为 3GB， 实 际 上 Linux 内 核 模块 位 于 3GB-16MB~3GB-2MB， 高端 内 


存 映 射 区 则 通常 位 于 3GB-2MB~3GB。 


图 11.7 给 出 了 32 位 ARM 系 统 Linux 内 核 地 址 空间 中 的 内 核 檬 块 区 域 、 融 并 内 存 映 册 区 、vmalloc、 问 量 
表 区 域 等 。 我 们 假定 编译 内 核 的 时 候选 择 的 是 VMSPLIT 3G (3G/1G user/kernel split) 。 如 果 用 户 选 择 的 
是 VMSPLIT 2G (2G/2G user/kernel split)， 则 图 11.7 中 的 内 核 模 块 开始 于 2GB-16MB，DMA 和 常规 内 存 


DX XS DX JF aa T 2GB. 


虚拟 地 址 
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图 11.7 32 位 ARM 系 统 中 Linux 内 核 的 地 址 空间 


ARM 系 统 的 Linux 之 所 以 把 内 核 模 块 安置 在 3GB 或 者 2GB 附 近 的 16MB 范 围 内 ， 主 要 是 为 了 实现 内 核 模 
块 和 内 核 本 身 的 代码 段 之 间 的 短 跳 转 。 


对 于 ARM SoC 而 言 ， 如 有 果 心 片 内 部 有 的 硬件 组 件 的 DMA 引 苟 访 问 内 存 时 有 地 址 空间 限制 ( 某 些 空间 
访问 不 到 〉， 比 如 假设 UART 控 制 器 的 DMA 只 能 访问 32MB， 那 么 这 个 低 32MB 束 是 DMA 区 域 ，32MB 到 高 
师 内 人 存 地 址 的 这 段 称 为 利 规 区 域 ， 再 之 上 的 称 为 高 病 内 存 区 域 。 


图 11.8 给 出 了 几 种 DMA、 利 规 、 高 病 内 存 区 域 可 能 的 分 布 ， 在 第 一 种 情况 下 ， 有 使 件 的 DMA 引 擎 不 
能 访问 全 部 地 址 ， 且 内 存 较 大 而 无 法 全 部 在 内 核 衬 间 虚 拟 地 址 映射 下 ， 存 放 有 3 个 区 域 ;， 第 二 种 情况 下 ， 
疫 有 全 件 的 DMA 引 擎 不 能 访问 全 部 地 址 ， 且 内 存 较 大 而 无 法 全 部 在 内 核 空 间 虚 拟 地 址 映射 下 ， 则 第 规 区 
域 实 际 退 化 为 0， 第 三 种 情况 下 ， 有 使 件 的 DMA 引 擎 不 能 访问 全 部 地 址 ， 且 内 人 存 较 小 可 以 全 部 在 内 核 空 间 
虚拟 地 址 映射 下 ， 则 高 媚 内 存 区 城 实 际 退 化 为 0， 第 四 种 情况 下 ， 没 有 便 件 的 DMA 引 擎 不 能 访问 全 部 地 
址 ， 且 内 存 较 小 可 以 全 部 在 内 核 空 间 虚 拟 地 址 映射 下 ， 则 常规 和 高 端 内 存 区 域 实 际 退 化 为 0。 


m mnm x uir Zz be 内 存 大 ， 有 人 硬件 的 DMA 
— WM | "rk. fett 

: : 内 存 大 ， 设 有 硬件 的 DMA 

da Ern ks SDMA 

m 内 存 小 ， 没有 硬件 ee 
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QUAN11.9FTAN, DMA, ^X. fem PJAEXX3T D IX A HbuddyXXtíIg SH, FEA LA ne 
方 为 单位 进行 管理 ， 因 此 Linux 最 底层 的 内 存 申 请 都 是 以 2 为 单位 的 。Buddy 算 法 最 主要 的 优 点 是 避免 了 外 
部 雁 片 ， 任 何 时 候 区 域 里 的 空 症 内 存 都 能 以 2 的 n 次 方 进 行 拆 分 或 合并 。 


É11.9 buddy 算 法 
/procbuddyinfo 会 显示 每 个 区 域 里 面 2n 的 空 亲 页 面 分 布 情况 ， 比 如 : 


Scat /proc/buddyinfo 


Node 0, zone DMA 8 5 2 7 8 3 O O 
0 1 O 
Node 0, zone Normal 2002 1202 524 Ley 183 71 7 O 
0 1 1 


ERARE m mAAR, DMA ERLE AAA 8S, ERRORS, HERA 
页 空闲 的 有 2 个 ， 以 此 闫 推 : 第 规 区 域 里 面 1 页 空 朵 的 还 有 2002 个 ， 连 续 2 页 空 亲 的 有 1252 个 ， 以 此 区 推 。 


对 于 扩 核 物理 内 存 映射 区 的 虚拟 内 存 〈 即 从 DMA 和 币 规 区 匡 映 射 过 来 的 ) ， 使 用 virt to_phys《〈) 可 
以 实现 内 核 虚 拟 地 址 转化 为 物理 地 址 。 与 乙 对 应 的 函数 为 phys to_virt〈) ， 它 将 物理 地 址 转化 为 内 核 虚 拟 


注意 : 上 述 virt to phys © 和 phys to virt O 方法 仅 适 用 于 DMA 和 第 规 区 域 ， 高 疾 内 存 的 虚拟 地 址 
与 物理 地 址 之 间 不 存在 如 此 人 窗 单 的 换算 关系 。 


11.3 内 存 存 取 


11.3.1 ”用户 空间 内 存 动态 申请 


在 用 户 空 间 中 动态 申请 内 存 的 水 数 为 malloc() ， 这 个 函数 在 各 种 操作 系统 上 的 使 用 都 是 一 致 的 ， 
malloc () 申请 的 内 存 的 释放 图 数 为 ffee O 。 对 于 Linux 而 言 ，C 库 的 malloc ©) 国 数 一 般 通过 brk ©) 和 
mmap CO 两 个 系统 调用 从 内 核 申 请 内 存 。 


由 于 用 户 空 间 C 库 的 malloc 算 法 实际 上 县 备 一 个 二 次 管理 能 力 ， 所 以 并 不 是 每 次 申请 和 释放 内 存 都 一 
定 伴随 着 对 内 核 的 系统 调用 。 比 如 ， 代 码 清 单 11.2 的 应 用 程序 可 以 从 内 核 拿 到 内 存 后 ， 立 即 调用 
free O ， 由 于 free O 之 前 调用 了 mallopt (M TRIM THRESHOLD， 一 1) 和 
mallopt (M_MMAP MAX, 0) ， 这 个 ffee〈) 并 不 会 把 内 存 还 给 内 核 ， 而 只 是 还 给 了 C 库 的 分 配 算法 (内 
存 仍然 属于 这 个 进程 ) ， 因 此 之 后 所 有 的 动态 内 存 申请 和 释放 都 在 用 户 态 下 进行 。 


代码 清单 11.2” ”用户 空 间 凡 人 存 申请 以 及 mallopt 


14include <malloc.h> 

2#include <sys/mman.h> 

3 

4#define SOMESIZE (100*1024*1024) // 100MB 
S 

oint main(int argc, char *argv[l) 

71 

8 unsigned char *buffer; 


9 Tne 17 

10 

11 if (mlockall(MCL CURRENT | MCL FUTURE)) 
LZ mallopt(M TRIM THRESHOLD, -1); 

13 mallopt(M MMAP MAX, 0); 

14 


15 buffer = malloc (SOMESIZE) ; 
16 if (!buffer) 
ME exití(-1); 


19 7s 
20 * Touch each page in this piece of memory to get it 
21 * mapped into RAM 


Ag wn 
29 for (L = 07 2 < S0MESDIAE; X +S page S126) 
24 buffer[i] = 0; 


25 free(buffer); 
26 7 <do your RI-Thino> 4/7 


28 return QO; 


夯 外 ，Linux 内 核 总 是 有 来 用 按 需 调 页 CDemand Paging) ， 因 此 当 malloc O 返回 的 时 候 ， 虽 然 是 成 功 
返回 ， 但 是 内 核 并 没有 真正 给 这 个 进程 内 存 ， 这 个 时 候 如 果 去 读 申 请 的 内 存 ， 内 容 全 部 是 0， 这 个 页 面 的 
Re RR. RAS SSR RAN, ARAN Re, BIER SRA EE. 


11.3.2 内核 空 间 内 存 动 态 申 请 


在 Linux 内 核 空 间 中 申请 内 存 涉及 的 函数 主要 包括 kmalloc O ~ _ get free pages () 和 vmalloc ©) 
Sk. kmalloc © 和 get free pages O 《及 其 类 似 函 数 ) 申请 的 内 存 位 于 MA 和 常规 区 域 的 映射 区 ， 而 
日 在 物理 上 也 是 连续 的 ， 它 们 与 真实 的 物理 地 址 只 有 一 个 固定 的 偏 移 ， 因 此 存在 较 简单 的 转换 关系 。 而 
vmalloc O 在 虚拟 内 存 空间 给 出 一 块 连续 的 内 存 区 ， 实 质 上 ， 这 片 连续 的 虚拟 内 存在 物理 内 存 中 并 不 一 
定 连续 ， 而 vmalloc © 申请 的 虚拟 内 存 和 物理 内 存 之 间 也 没有 简单 的 换算 关系 。 


1 .kmalloc ©) 


void *kmablbLocbslze t Size, Ant flags); 


Zikmalloo O 的 第 一 个 参数 是 要 分 配 的 块 的 大 小 ; 第 二 个 参数 为 分 配 标志 ， 用 于 控制 kmalloc O 的 
行为 。 


最 第 用 的 分 配 标 志 古 GFP_KERNEL， 其 含义 是 在 内 核 空间 的 进程 中 申请 内 和 存 。kmalloc〈) BUE AK 
fi get free pages O 来 实现 ， 分 配 标 志 的 前 级 GFP 正 好 是 这 个 底层 函数 的 缩写 。 使 用 GFP KERNEL 
标志 申请 内 存 时 ， 夺 暂时 不 能 满足 ， 则 进程 会 睡 虐 等 竺 页 ， 即 会 引起 阻塞 ， 因 此 不 能 在 中 断 上 下 文 或 持 有 
自 旋 锁 的 时 候 使 用 GFP KERNE 申 请 内 存 。 


由 于 在 中 断 处 理 函 数 、tasklet 和 内 核定 时 元 等 非 进程 上 下 文中 不 能 阻 竖 ， 所 以 此 时 驱动 应 当 使 用 
GFP AIOMIC 标 志 来 申请 内 存 。 当 使 用 GFP ATIOMIC 标 志 申 请 内 存 时 ， 若 不 存在 空闲 页 ， 则 不 等 待 ， 直 
接 返 回 。 


其 他 的 申请 标志 还 包括 GFP_USER“《“ 用 来 为 用 户 衬 间 页 分 配 内 存 ， 可 能 阻塞 ) 、 
GFP HIGHUSER 类似 GFP_USER， 但 是 它 从 局 新 内 存 分 配 ) . GFP DMA 从 DMA 区 域 分 配 内 存 )、 
GFP NOIO (不 允许 任何 W/O 初始 化 )、GFP NOFS (不 允许 进行 任何 文件 系统 调用 )、 
. GFP HIGHMEM 《指示 分 配 的 内 存 可 以 位 于 高 端 内 存 ) 、 GFP COLD (请 求 一 个 较 长 时 间 不 访问 的 
W) 、_GFP NOWARN 〔〈 当 一 个 分 配 无 法 满足 时 ， 阻 止 内 核 用 出 警告 ) 、_GFP HIGH (局 优先 级 请 
求 ， 人 允许 获得 被 内 核 保留 给 紧急 状况 使 用 的 最 后 的 内 存 页 ) 、_GFP REPEAT. 《分 配 失 败 ， 则 尽力 重复 等 
WO.  GFP NOFAIL (标记 只 许 申 请 成 功 ， 不 推荐 ) 和 ”GFP NORETRY CARAS, MEIA) 


4B 


使 用 kmalloc ©) 申请 的 内 存 应 使 用 kfree〈) TE, IX -SER ACE VA AIS IP 28 [RH] free O 类 似 。 


2. get free pages () 


. get free pages O 系列 函数 / 宏 本 质 上 是 Linux 内 核 最 辰 层 用 于 获取 裕 亲 内 存 的 方法 ， 因 为 撒 层 的 
buddy 算 法 以 2n 页 为 单位 意 理 空 亲 内存， 所 以 最 展 层 的 内 存 申请 总 是 以 2n 页 为 单位 的 。 


. get free pages O 系列 图 数 / 宏 包括 get zeroed page () 、 get free page () 和 
|. get free pages () 。 


get zeroed page(unsigned int flags); 
APR UE [6] — ^P 18 PEST 04 ER] RHET IF BEALI e 
|| get free page(unsigned int flags); 
该 宏 返回 一 个 指 问 新 外 的 指针 但 是 该 页 不 清 零 ， 它 实际 上 为 : 


define | get free page(gfp mask) \ 
. Jet free pages((gfp mask) ;.0) 


Wize VFA | PII get free pages O 申请 1 页 。 


_ ger Iree Pages (unsigned znt flags, unsigned DL Order); 


该 国 数 可 分 配 多 个 页 并 返回 分 配 内 存 的 首 地 址 ， 分 配 的 页 数 为 2order， 分 配 的 页 也 不 清 零 。order 人 允许 
的 最 大 值 是 10 〈 即 1024 页 ) 或 者 11〈 即 2048 页 ) ， 这 取决 于 具体 的 人 硬件 平台 。 


. get free pages () 和 get zeroed page O 在 实现 中 调用 了 alloc pages O KZ alloc pages O 既 可 
以 在 内 核 空 间 分 配 ， 也 可 以 在 用 户 空间 分 配 ， 其 原型 为 : 


struct page ~ alloc pages (int. gip mask, unsigned long order); 


参数 含义 与 “get free pages O 类 似 ， 但 它 返 回 分 配 的 第 一 个 页 的 描述 符 而 非 首 地 址 。 
使 用 get free pages () ARF PRB AA aA A FE ECORI PR RE a: 


void free page(unsigned long addr); 
void Tree pages (unsigned: long addr, unsigned long order); 


. get free _ pages 等 图 数 在 使 用 时 ， 其 申请 标志 的 值 与 kmalloc O 完全 一 样 ， 各 标志 的 含义 也 与 
kmalloc () 完全 一 致 ， 最 常用 的 是 GFP KERNEL#IGFP ATOMIC. 


3.vmalloc ©) 


vmalloc ©) 一 般 只 为 存在 于 软件 中 《没有 对 应 的 便 件 意义 ) 的 较 大 的 顺序 缓冲 区 分 配 内 存 ， 


vmalloc () 远大 于 get free pages O 的 开销 ， 为 了 完成 Vvmalloc ©) ， 新 的 页 表 项 需要 要 建立 。 因 此 ， 
只 是 调用 vmalloc《〈) 来 分 配 少量 的 内 存 《〈《 如 1 页 以 内 的 内 存 ) Ze EB. 


vmalloc ©) 申请 的 内 存 应 使 用 vfree O 释放 ，vmalloc () Mvfree ©) 的 函数 原型 如 下 : 


void *vmalloc(unsigned long size); 
void vfree(void * addr); 


vmalloc () 不 能 用 在 原子 上 下 文中 ， 因 为 它 的 内 部 实现 使 用 了 标志 为 GFP_KERNELH 的 kmalloc O . 


使 用 vmalloc ©) 函数 的 一 个 例子 函数 是 create module O 系统 调用 ， 它 利用 vmalloc ©) 函数 来 获取 被 
创建 模块 需要 的 内 存 空间 。 


vmalloc O 在 申请 内 存 时 ， 会 进行 内 存 的 映射 ， 改 变 页 表 项 ， 不 像 kmalloc《〈) 实际 用 的 是 开机 过 程 
中 就 映射 好 的 DMA 和 和 党 规 区 域 的 页 表 项 。 因 此 vmalloc ©) 的 虚拟 地 址 和 物理 地 址 不 是 一 个 简单 的 线性 映 
出 。 


4.slab 与 内 存 池 


一 方面 ， 完 全 使 用 页 为 单元 申请 和 释放 内 存 容易 导致 浪费 〈 如 果 要 申请 少量 字 节 ， 也 需要 用 1 页 ) ， 
另 一 方面 ， 在 操作 系统 的 运作 过 程 中 ， 经 常会 涉及 大 量 对 象 的 重复 生成 、 使 用 和 释放 内 存 问 题 。 在 Linux 
系统 中 所 用 到 的 对 象 ， 比 较 典型 的 例子 是 inode、task_struct 等 。 如 果 我 们 能 够 用 合适 的 方法 使 得 对 象 在 前 
后 两 次 被 使 用 时 分 配 在 同一 块 内 存 或 同一 类 内 存 空间 且 保留 了 基本 的 数据 结构 ， 就 可 以 大 大 提高 效率 。 

slab 算 法 就 是 针对 上 述 特点 设计 的 。 实 际 上 kmalloe O 就 是 使 用 slab 机 制 实现 的 。 


slab 旦 建立 在 buddy 算 法 之 上 的 ， 它 从 buddy 算 法 合 到 2n 页 面 后 再 次 进行 二 次 寡 理 ， 这 一 点 和 用 户 衬 间 
的 C 库 很 像 。slab 申 请 的 内 存 以 及 基于 slab 的 kmalloc O 申请 的 内 存 ， 与 物理 内 存 之 间 也 是 一 个 简单 的 线 
TEMI e 


(1) 创建 slab 绥 存 


struct kmem cache “kmem cache Oreate(const char “name; Size. L Size, 
size t align; unsigned Jong flags, 
void (*Cctor)(vold^*, Struct kmen cache *, unsigned long), 
void (*CGtor)(vol1d*; Strucu-kmem cache *, Unsigned long); 


kmem cache create O 用 于 创建 一 个 slab 缓 存 ， 它 是 一 个 可 以 保留 任意 数目 且 全 部 同样 大 小 的 后 备 组 
存 。 参 数 size 是 要 分 配 的 每 个 数据 结构 的 大 小 ， 参 数 flags 古 控制 如 何 进行 分 配 的 位 掩 码 ， 包 括 
SLAB HWCACHE ALIGN 每 个 数据 对 象 做 对 齐 到 一 个 缓存 行 ) 、SLAB_ CACHE DMA (要 求 数 据 对 象 
在 DMA 区 域 中 分 配 〉 等。 


(2) 分 配 slab 绥 存 


void "kEkmenm cache eLloo(struct Kmem cache “cachep, Grip t lage); 


"EZ fEkmem cache create O 创建 的 Slab 后 备 绥 存 中 分 配 一 块 并 返 


(3) 释放 slab 绥 存 


void kmem cache free(struct kmem cache *cachep, void *objp); 


上 述 函 数 释 放 由 kmem cache alloc () 分 配 的 绥 存 。 


(4) 收回 slab 绥 存 


int. kmem cache destroy (struct kmem cache *cachep); 


1 
1 


代码 清单 11.3 给 出 了 slab 绥 存 的 使 用 范例 。 


代 但 清单 11.3 slabZ&Tr fs FH yi. fn] 


1/* 创建 Sab 缓 存 */ 


2static kmem cache t *XXX Cachep; 
J CaChep = Kilem Cache Oreatel" Xxx". SIizcori(istruct xxx), 
4 0, SLAB HWCACHE ALIGN | SLAB PANIC, NULL, NULL); 


5/* 分 配 slab 缓 存 */ 

OSLIUCUC XXX "CUR 

7ctx = kmem cache alloc(xxx cachep, GFP KERNEL); 
8.../* 使 用 ab 缓存 */ 

9/* 释放 Sab 缓 存 */ 

Okmem cache free(xxx cachep, ctx); 

lkmem cache destroy(xxx cachep); 


TE At BE ISE/proc/slabinfo Ti Ay EAS XI 24 BI slab HY 27 Bio RU 8 H fei Ot, 


回首 地 址 指针 。 


iB 1T cat/proc/slabinfo: 


# cat /proc/slabinfo 

slabintfo = version: 2.1 

# name Sactive o0b]s «mum objs «oDgsize-— <cb perslab> <pagespersilab- + 
tunables «Limrt- <batchcount> €sharedractor- s slabdata «active slabs> 
«num slabs» <sharedavail> 

1sSors anode cache 66 66 360 22 2 : tunables 0 O 0 .3 
slabdata d 3 0 

ext4 groupinfo 4k 156 LOG 104 39 1 : tunables 9 O (E 
slabdata 4 4 0 

UDPLITEv6 O 0 768 21 4 : tunables O 0 D s 
slabdata O 0 O 

UDPv6 84 84 768 Al 4 : tunables 0 O 0 : 
slabdata 4 4 O 

tw sock ICPvO O O 192 Ze L x vronables O 0 U s 
slabdata O 0 O 

TCPv6 88 88 1472 22 o s. tunables O O J 3 
slabdata 4 4 0 

zcache objnode 9 9 22 50 2 : tunables 9 9 os 
slabdata O O 0 

kcopyd job O 9 2344 13 8 : tunables 9 9 Q : 
slabdata O 0 O 

dm uevent O O 2464 SG 8 : tunables O 0 U = 
slabdata O 0 O... 


注意 : slab 不 是 要 代 蔡 ”get free pages O ， 其 在 最 底层 仍然 依赖 于 


= get free pages ©) 


slab Æ JE 


每 次 申请 1 页 或 多 页 ， 之 后 再 分 隔 这 些 页 为 更 小 的 单元 进行 管理 ， 从 而 节省 了 内 存 ， 也 提高 了 slab 缓 冲 


Zs Hj 


对 象 的 访问 效率 。 


除了 slab 以 外 ， 在 Linux 内 核 中 还 包含 对 内 存 池 的 文 持 ， 内 和 存 池 拉 术 也 是 一 种 非常 经 典 的 用 于 分 配 大 量 
XY BRA J th AF EA o 


在 Linux 内 核 中 ， 与 内 存 池 相关 的 操作 包括 如 下 几 种 。 


(1) 创建 内 存 池 


IemooolL © "*menpoolL Creante(1int mn ne, memnpool lloc b “a bloc, Fn, 
memDetr res. uu 1596 Th Yore “oor Gatal? 


mempool create () PAH FRIES A, min nr 参数 是 需要 预 分 配对 象 的 数 日 ，alloc fni 
free 各 是 指 问 内 存 池 机 制 提供 的 标准 对 象 分 配 和 回收 函数 的 指针 ， 其 原型 分 别 为 : 


typedet wosd *(mempool alloc L) nnt gp masc, vord.* pool. data); 


和 


typedet word 4mempoot tree t) (vord: *elemenu, vord ^pool data); 


pool data 是 分 配 和 回收 函数 用 到 的 指针 ，gfp mask 是 分 配 标记 。 只 有 当 GFP WAIT 标 记 被 指定 时 ， 
分 配 图 数 才 会 休眠 。 


(2) 分 配 和 回收 对 象 
在 内 存 池 中 分 配 和 回收 对 象 需 由 以 下 函数 来 完成 : 


võrd *mempool alloctümempool © *pool, Int grip mask); 
vord mempool Tree (void *element, mempool t *pool); 


mempool alloc O 用 来 分 配对 象 ， 如 果 内 存 闻 分 配 右 无 法 提供 内 存 ， 那 么 束 可 以 用 预 分 配 的 池 。 
(3) 回收 内 存 池 


VOLO mempoob destroy (mempool. T ~pool); 


由 mempool create () 函数 创建 的 内 和 存 池 需 由 mempool destroy O 来 回收 。 


11.4 设备 IO 端口 和 IJO 内 存 的 访问 


设备 通常 会 提供 一 组 寄存 器 来 控制 设备 、 


读 写 设 备 和 获取 设备 状态 ， 
态 寄存 器 。 这 些 寄存 器 可 能 位 于 IO 空间 中 ， 也 可 能 位 于 内 存 空 


O; 当 位 于 内 看 空 间 时 ， 对 应 的 内 存 空 间 被 称 为 /OO 内存 。 


BI $25 ftl ey AF AN 
间 中 。 当 位 于 IO 空间 时 ， 


NULLI. 


ATK 


1s IERA L/O imi 


11.4.1 Linux WO 端口 和 LO 内 存 访问 接口 


1.I/O?g O 


fELinux te So A, MEH Linux A pe DEI] AOR E xe zT V/OZ A m, xe p AU eo JL 
种 。 


1 ) 读 写 字 节 端口 〈8 位 宽 ) 。 


unsigned inb(unsigned port); 
void outb (unsigned char byte, unsigned port); 


2) 该 写字 端口 (16 位 宽 ) 。 


unsigned inw(unsigned port); 
void outwiunsrigned short word, Unsigned pott); 


3) 该 写 长 字 端 口 (G2 6) 


unsigned inl(unsigned port); 
void outl (unsigned longword, unsigned port); 


4) BE Re 


void insbiunsigned port, void *addr, unsigned long count); 
void outsb(unsrigned port, void *addr, unsigned long count) 


5) insb ©) Aim A port 4a técount ^£ Wm L1, Jf IE EZR AaddrfRIH JV T£: outsb ©) 将 addr 
指 回 的 内 存 中 的 count 个 字 贡 和 连续 与 入 以 port 开 始 的 交口 。 


6) ZS Rs. 


void insw(unsigned port, void *addr, unsigned long count); 
void outsw(unsigned port, void *addr, unsigned long count); 


7) 旋 写 一 串 长 字 。 


void insl(unsigned port, void *addr, unsigned long count); 
void outsliunsigued port, void “addr, unsigned long count); 


上 上述 各 函数 中 IO 交口 亏 port 的 闫 型 高 度 依赖 于 具体 的 便 件 平台 ， 因 此 ， 这 里 只 是 与 出 f unsigned. 
2. VOW f£ 


在 内 核 中 访问 VO 内 存 (通常 是 蕊 片 内 部 的 各 个 人 fC、SPI、USB 等 控制 器 的 寄存 器 或 者 外 部 内 存 总 线 


上 的 设备 ) 之 前 ， 需 首先 使 用 ioremap O 函数 将 设备 了 所 处 的 物理 地 址 映射 到 虚拟 地 址 上 。ioremap〈() 的 
原型 如 下 : 


void *ioremap (unsigned long offset, unsigned long size); 


ioremap O 与 vmalloc〈) 关 似 ， 也 需要 建立 新 的 页 表 ， 但 是 它 并 不 进行 vmalloce《〈) 中 所 执行 的 内 存 
分 配 行 为 。ioremap ©) 返回 一 个 特殊 的 虚拟 地 址 ， 该 地 址 可 用 来 存 取 特定 的 物理 地 址 范围 ， 这 个 虚拟 地 
址 位 于 vmalloc 映 射 区 域 。 通 过 ioremap ©) 获得 的 虚拟 地 址 应 该 和 要 iounmap O 函数 释放 ， 其 原型 如 下 : 


vord sounmapiwoard. = addr); 


ioremap (O 有 个 变 体 是 devm ioremap O ， 类 似 于 其 他 以 devm FAKA Witdevm_ioremap () 
进行 的 映射 通 钊 不 需要 在 驱动 退出 和 出 钳 处 理 的 时 候 进 行 iounmap () 。devm ioremap () 的 原型 为 : 


void: omem "devi loPemapistruct device. dev, resource size L ORLSeL; 
unsigned long size); 


FE ae FRU (aN eg fone ) 被 映射 到 虚拟 地 址 之后 ， 尽 管 可 以 直接 通过 指针 访问 这 些 地 
址 ， 但 是 Linux 内 核 推荐 用 一 组 标准 的 API 来 完成 设备 内 存 映 射 的 虚拟 地 址 的 读 写 。 


该 寄存 莫 用 readb relaxed () . readw relaxed (Ò . readl relaxed () . readb () . readw () 、 
readl (O 3X —2HAPL LÀA4P3jiESbit. l6bit. 32bitH] Ziff zs, 1x/H _relaxed/SRWIMASA_relaxed nA 
版 本 的 区 别 是 没有 _relaxed 后 级 的 版 本 包含 一 个 内 存 屏 障 ， 如 : 


#define readb(c) ({ u8 | v = readb relaxed(c); iormb(); v; }) 
#define readw(c) ({ ul6 v = readw relaxed(c); . iormb(); v; }) 
#define readl(c) ({ u32 v = readl relaxed(c); —iormb(); v; }) 


lab ffaH]writeb relaxed () ~ writew relaxed () ~ writel relaxed () ~ writeb () ~ writew (2 、 


writel () 3x —2HAPL LÀ4ral*38bit. l6bit, 32bit'] AIFA 1x/H relaxed/n RREA relaxed) 2& UT] 
版 本 的 区 别 是 前 者 包含 一 个 内 存 屏 障 ， 如 : 


#define writeb(v,c) CGU _ <kOwmb-() 7" WrLeeb. reloxed(ovychr F) 


#define writew(v,c) (|l. -powmb() 7 wrrtew relaxed(vyc)r J) 
#define writel(v,c) (1... cowmboi). writer relased (VrO J) 


11.4.2 ”申请 与 释放 设备 的 IO 痕 口 和 LO 内 存 
1.7O 端 口 申 请 
Linux 内 核 提 供 了 一 组 函数 以 申请 和 释放 IO 端口 ， 表 明 该 驱动 要 访问 这 片区 域 。 


SLIUCL. resource *request region (unsigned long riri, unsigned long ny Cons: Char name); 


函数 向 内 核 申 请 n 个 端口 ， 这 些 端口 从 first 开 始 ，name 参 数 为 设备 的 名 称 。 如 果 分 配 成 功 ， 则 返 
回 值 不 是 NULL， 如 果 返 回 NULL， 则 意味 着 申请 端口 失败 。 


当 用 request region O 申请 的 IO 端口 使 用 完成 后 ， 应 当 使 用 release region O 函数 将 它们 归还 给 系 
统 ， 这 个 函数 的 原型 如 下 : 


vold release region(unsigned long start, unsigned long Tm); 


2. VOW 4 Fi 


同样 ，Linux 内 核 也 提供 了 一 组 函数 以 申请 和 释放 IO 内 存 的 范围 。 此 处 的 “申请 ?吉明 该 驱动 要 访问 这 
卢 区 域 ， 它 不 会 做 任何 内 存 映 射 的 动作 ， 更 多 的 是 次 似 于 “eservation 的 概念 。 


otruct resource "request mem region(unsigned long Start, unsigned long len, Char ^name); 


文 个 函数 向 内 核 申 请 n 个 内 存 地 址 ， 这 些 地 址 从 first 开 始 ，name 参 数 为 设备 的 名 称 。 如 果 分 配 成 功 ， 
则 返回 值 不 是 NULL， 如 果 返 回 NULL， 则 意味 着 申请 IO 内 存 失 败 。 


当 用 request mem region () 申请 的 IO 内 存 使 用 完成 后 ， 应 当 使 用 release mem region O 函数 将 它们 
归还 给 系统 ， 这 个 函数 的 原型 如 下 : 


void zelease mem.regron(unsrigned long Start, unsagned long len); 


request region () request mem region O 也 分 别 有 变 体 ， 其 为 devm request region () 和 


devm request mem region () 。 


11.4.3 ”设备 IO 端口 和 IO 内 存 访 问 流 程 


综合 11.3 闻 和 本 市 的 内 容 ， 可 以 归纳 出 设备 张 动 访问 IO 问 口 和 LO 内 存 的 步骤。 


IO 问 口 访问 的 一 种 途径 是 直接 使 用 IO 问 口 操作 函数 : 在 设备 打开 或 驱动 模块 被 加 载 时 申请 IO 端口 区 
域 ， 之 后 使 用 inb ©) 、outb O 等 进行 妆 口 访问 ， 最 后 ， 在 设备 关闭 或 驱动 家 番 载 时 释放 IO 疹 口 范围 。 
整个 流程 如 图 11.10 所 示 。 


inb 0 、outb 0 等 “| 在 设备 驱动 初始 化 、write()、 
read () ~ ioctl O 等 函数 中 进行 


在 设备 驱动 模块 印 载 或 release() 
函数 中 进行 





release. region() 


图 11.10 | /O?gi O IJ I] Yr 


1/O 内 存 的 访问 步骤 如 图 11.11 所 示 ， 首 先是 调用 request mem region O 申请 资源 ， 接 着 将 寄存 器 地 址 
通过 ioremap〈) 映 冉 到 内 核 空 间 虚 拟 地 址 ， 之 后 就 可 以 通过 Linux 设 备 访问 编程 接口 访问 这 些 设 备 的 寄存 
器 了 。 访 问 完成 后 ， 应 对 ioremap O 申请 的 虚拟 地 址 进行 释放 ， 并 释放 release mem region © 申请 的 IO 
内 存 资 源 。 


request mem region() 


ioremap() 


readb. readh writeb, 在 设备 驱动 初始 化 、write()、 
writel 等 read()、ioctl0) 等 函数 中 进行 


在 设备 驱动 模块 加 载 或 
open) PK ŽP JET 


iounmap() 
TE Vf DRAE aR vk 
release() PR ŽUP HEIT 


release mem region() 





图 11.11 IO 内 存 访 问 流 程 


有 时 候 ， 张 动 在 访问 寄存 器 或 IO 端口 前 ， 会 省 去 request mem region () ~ request region OO 这 样 的 
调用 O 


11.4.4 将 设备 地 址 映射 到 用 户 空 间 
L.A ERAS 5S VMA 


一 段 情 况 下 ， 用 户 空间 古人 不 可 能 也 不 应 该 直接 访问 设备 的 ， 但 是 ， 设 备 驱 动 程序 中 可 实现 mmap O 
函数 ， 这 个 冰 数 可 使 得 用 户 空 间 能 直接 访问 设备 的 物理 地 址 。 实 际 上 ，mmap〈) 实现 了 这 样 的 一 个 映射 
过 程 : 它 将 用 户 衬 间 的 一 段 内 存 与 设备 内 存 天 联 ， 当 用 户 访问 用 户 空 间 的 这 段 地 址 范围 时 ， 实 际 上 会 转化 
为 对 设备 的 访问 。 


这 种 能 力 对 于 显示 适 配 耸 一 类 的 设备 非常 有 意义 ， 如 末 用 户 空 间 可 二 接 通 过 内 存 了 映射 访问 时 人 存 的 话 ， 
屏 融 帆 的 各 点 像 系 将 不 央 圾 要 一 个 从 用 性 空间 到 内 核 空 间 的 复制 的 过 程 。 


mmap (O 必须 以 PAGE SIZE 为 单位 进行 映射 ， 实 际 上 ， 内 存 只 能 以 页 为 单位 进行 四 射 ， 在 要 映射 非 
PAGE _ SIZE 你 数 倍 的 地 址 范围 ， 要 爷 进 行 页 对 齐 ， 强 行 以 PAGE SIZE 的 倍数 大 小 进行 四 射 。 


从 file_ operations 文 件 操作 结构 体 可 以 看 出 ， 张 动 中 mmap ©) 函数 的 原型 如 下 : 


En 


IKa H mmap O 函数 将 在 用 户 进行 nmap O 系统 调用 时 最 终 修 调用 ，mmap〈) 系统 调用 的 原型 
与 fle operations 中 mmap ©) 的 原型 区 别 很 大 ， 如 下 所 示 : 


gaddi c mmap (caddr t addr, Size t Len, int prot, int flago; int fd, OLI © OLLSeL); 


参数 名 为 文件 描述 符 ， 一 般 由 open O 返回 ， 和 也 可 以 指定 为 -1， 此 时 需 指定 flags 参 数 中 的 
MAP ANON， 表 明 进 行 的 是 匿名 映射 。 


len 征 映射 到 调用 用 户 空 间 的 字 节 数 ， 它 从 被 映射 文件 开头 ofRet 个 字 布 开始 算 起 ，ofRet 参 数 一 般 设 为 
0， 表 示 从 文件 头 开始 映射 。 


prot 参 数 指定 访问 权限 ， 可 取 如 下 几 个 值 的 “或 >， PROT READ (可 读 ) ~ PROT WRITE (可 写 ) 、 
PROT EXEC (可 执行 ) 和 PROT NONE 〈 不 可 访问 ) 。 


参数 addr 指 定 文 件 应 被 映射 到 用 户 空 间 的 起 始 地 址 ， 一 般 被 指定 为 NULL， 这 样 ， 选 择 起 始 地 址 的 任 
务 将 由 内 核 完成 ， 而 函数 的 返回 值 了 是 遇 射 到 用 户 衬 间 的 地 址 。 其 类 型 caddr t 实 际 上 可 是 void*。 


当 用 户 调用 mmap ©) 的 时 候 ， 内 核 会 进行 如 下 处 理 。 


1) 在 进程 的 虚拟 空间 查找 一 块 VYMA。 


2) 将 这 块 VMA 进 行 映射 。 

3) 如 果 设 备 驱 动 程序 或 者 文件 系统 的 他 e operations 定 义 了 mmap © 操作 ， 则 调用 它 。 
4) 将 这 个 VMA 插 入 进程 的 VMA 和 链表 中 。 

file operations 中 mmap O 六 数 的 第 一 个 参数 耽 是 步骤 1) 找到 的 VMA。 


由 mmap ©) 系统 调用 映射 的 内 存 可 由 munmap O 解除 映射 ， 这 个 函数 的 原型 如 下 : 


Ine, munmeaptcaddr.-U Adley size: c ben > 


驱动 程序 中 mmap ©) 的 实现 机 制 是 建立 页 表 ， 并 填充 VMA 结 构 体 中 vm_operations_struct 指 针 。VMA 
瓯 是 vm_area_struct， 用 于 摘 述 一 个 虚拟 内 存 区 域 ，VMA 结 构 体 的 定义 如 代 但 清单 11.4 所 示 。 


代码 清单 11.4 VMA 结 构 体 


se 


2. J4* The first cache line has the into for VMA- tree walking. */ 

3 

4 unsigned long vm start; |* Our Stare address within vm mm. Ty 
9 Unsigned: long vm end; /* The first byte after our end address 
6 within vm mm. *7 

7 

8 /* linked list of VM areas per task, sorted by address */ 

T SSUIUCU VEL area SUEIUcu "m Mex U,V prev; 

I 

lI Struct. Th node vm ro; 

LZ 

L3 

14 

La £* Second cache Line starts heres *7 

16 

hy struct mmcscrucb. “wih ann /* The address space we belong to. */ 
l6. *POPTOG. € wn page prot; /* Access permissions of this VMA. */ 
19 unsigned long vm flags; j* Rlagsy see mm.hu. * 
20 
Zl ^d 
22. QOnst sSLruct-vm operaLrons struct wm opseg 
23 
24. #£* Information about. our backing. Store: *7 
25: “Unsigned: long vm pgortr; /* Offset (within vm file) in PAGE SIZE 
26 units, *not* PAGE CACHE SIZE */ 
24 Seruce tile: ~ wm tale; Lt File we-omap- to (can be NULLE» *7 
28 void * vm private data; /* was vm pte (shared mem) */ 
29 
30] 


VMA 绪 构 体 摘 述 的 虚 地 址 介 于 vm_ start 和 vm end 之 间 ， 而 其 vm _ ops 成 员 指 问 这 个 VMA 的 操作 集 。 人 和 针 
对 VMA 的 操作 都 被 包含 在 vm_operations_struct 结 构 体 中 ，vm_operations_struct 结 构 体 的 定义 如 代码 清单 


11.5 所 示 。 


代码 清单 11.5 vm operations struct 结 构 体 


otrot WwmOperatroHne Struc + 

VOX “(Open (SCEUCE, VM area Struct S area)? 

vorid (“OlLOSeE) (StEUCL VM area Struck * aree); 

in "oul (Skruct Vn ares Strucye. “vind; SIEPSUCt wm: taule vmi); 

vord: (*msp pages) (SULUCe Vv dre OLTU “vie SCE CE Vm Peubb ym) 


Ov ol W NN 


7 /* notification that a previously read-only page is about to become 


8 x writable, if an error is returned it will cause a SIGBUS */ 

J ane ("page mKkwrive) (Struct vm ares Struct Ym Strucy vm fault aymi)? 
10 
11 /* called by access process vm when get user pages() fails, typically 
LZ * for use by special VMAS that can switch between memory and hardware 
13 mr 
14 ant. (*access) (struct vm area struct *vma, unsigned long addr, 
To vaid “but, int len; ant write); 
16 
Lr 


整个 vm operations struct 结构 体 的 实体 会 在 fle operations 的 mmap (OO Jo R A 2c E EAE 2S TH DY A vma- 
>vm ops， 而 上 述 open ©) 函数 也 通常 在 mmap() EWH, close O 函数 会 在 用 户 调用 munmap O 的 时 
候 委 调用 到 。 代 人 码 清单 11.6 给 出 了 一 个 vm_operations_struct 的 操作 苑 例 。 


代码 清单 11.6 vm operations struct 控 作 范 例 


ie 


Z1 
> if (remap prn vance (via, Vm > Scart, Vm SV pgorft, wmda--vm-end = ma 
4 -»vm start, vma-»vm page prot))/* 建立 页 表 */ 
5 return  -EAGAIN; 
6  vma-»vm ops = &xxx remap vm Oops; 
7 XXX vma open(vma); 
8 return O0; 
2] 
10 
llstatic void xxx vma open (struct vm area struct *vma)/* VMA 打 开 函 数 */ 
l21 
13 
14 printk(KERN NOTICE "xxx VMA open, virt $1x, phys $1xX4n", vma-»vm start, 
E3 wWunacesvm pgort << PAGE SHMIET); 
Lo} 
17 
18static void xxx vma close (struct vm area struct *vma)/* VMA 关 闭 函数 */ 
191 
20 
21 printk(KERN NOTICE "xxx VMA close.\n") 
22 
23 
24static struct vm operations struct xxx remap vm ops = {/* VMA 操 作 结构 体 */ 
29. «Open = XXX. vma open; 
20 «Glose = XXX ‘vine. Close, 
21 
28} 


第 3 行 调 用 的 remap pfn range O &jz& v1z€3,. UVMA KJER US CVMATBS ACHE BM ne A PAE 5 
用 户 的 请 求 目 己 填充 的 ) 作为 remap pfn range O WAX PRONE M TAHE hE YU. El Zi vma-2vm start £2 vma- 


>vm end. 
remap pfn range O 函数 的 原型 如 下 : 


int remap. pin range(struct vm area struct *vma, unsigned long addr, 
unsigned. long pin, unsigned long Size; PIPOL t prot); 


其 中 的 addr 参 数 表 示 内 存 映 射 开 始 处 的 虚拟 地 址 。remap pfn range () 函数 为 addr~addrtsize 的 虚拟 地 
址 构造 页 表 。 


pn 是 虚拟 地 址 应 该 映射 到 的 物理 地 址 的 页 帧 号 ， 实 际 上 就 是 物理 地 址 右 移 PAGE SHIFT. Zi 
PAGE SIZE 为 4KB， 则 PAGE SHIFT 为 12， 因 为 PAGE SIZE 等 于 1<<PAGE SHIFT. 


prot 征 新 页 所 要 求 的 体 护 属性 。 


在 驱动 程序 中 ， 我 们 能 使 用 remap pfn range O 觅 射 内 存 中 的 保留 页 、 设 备 IJO、framebuffer、camera 
等 内 存 。 在 remap pfn range O 上 又 可 以 进一步 封闭 出 io remap pfn range () ~ vm iomap memory () 


“API. 


#define io remap pfn range remap pfn range 
int, vm omap Memory (Struck. ym area Strucu "uma; Phyo- addr UC Stuart; unssoned jong Len) 


{ 


unsigned Long vm len, pin; pages; 

len r= Start ee PAGE MASK; 

prin = Stara >> PAGE OBHDLETI 

pages. = Len T “PAGE. MASK). c PAGE: SHTET 


prn > ovma-^wvm pgort; 


pages -- vma-»vm pgoff; 
/* Can we fit all of the mapping  */ 
Vr en = Vesey Aen: ce SUISSE Star; 


PEAK, Let ups Wy 
return To remap pin range(vma, vie--vm start, Prine Vm len vma-2vm page prot); 


X318 EE 11.728 E f LCD 3K a) PRY framebuffer 7 ZB Hh E BI) AQ Pe [R] EJ yo ll, TRASH A 


drivers/video/fbdev/core/fbmem.c. 
代码 清单 11.7 LCDJUIXzJHU framebufferii]mmap 


Pe Cenc: mb 
ZLDomwdpistrcucb fole SELLS, Sr UCC Yi area Struck wma) 


ee 
ee 

6 unsigned long mmio pgoff; 

7 unsigned long start; 

8 


Ho ems 
9 
l0» EE ACPO) 
du return —~ENODEV; 


l2 Jo. anro- EDOD; 

L3 E (FTD) 

14 return =SENODEV? 

lo- «mutex: lock (¢into=>mm look). 
l6. GB Qfbesrb mudp) 4 


L int res; 

18 pes e CSbe«rbmmapiainfo, vma)s 
L9 mutex unlock(&info-»mm lock); 
20 return res; 

21 3 

22 

Lo. em 


24 * Ugh. This can be either the frame buffer mapping, or 
2 ^ut POOLE points past ct, The mmrto mapping; 


26 * / 
Zo ‘Stari: = uos P3 Seg pla ru, 
20 Jen e Anos tx ssmem:. Len 


Zo MMO: POLL = PAGE ALION (Start C SEAGE MASK): om ben) 2 PAGE Snel; 
3D. df Cymsg- vm POOLE -= mmio pgobi) 4 


341. IT QXIDLo-^var.goocsel flago) d 

ou mutex unlock(&info-»mm lock); 
9 return -EINVAL; 

34 } 

36 vmacecwm pgolt == mmro- pgorc; 

37 Stare = INLOS E O o aE 

o Jen. = cnfo-crrixommco len; 

39 4} 

40 mutex unlock(&info-»mm lock); 

41 

42. wrta-2vmnm page Prot = vm get page prot(vma-»vm £lags); 


Ao- JD POP OECTA Ler Vay. Stare) 7 


44 
45 return vm iomap memory(vma, start, len); 
46} 


通 币 ，LIJO 内 存 航 瞻 射 时 需要 是 nocache 的 ， 这 时 候 ， 我 们 应 该 对 vma->vm page prot 设 置 nocache 标 志 之 
Jg BERE, Ud SISTI. 


代码 清单 11.8 nocache Y XX PEZ 28 [8] RACES] 80] HJ P? 25 [] 


IStatic Int xxx nocache mmap(struce Tile *"rilp, Struct. vm arcea stcuct SI 


Z1 

3 vma-»vm page prot = pgprot noncached(vma-»vm page prot);/* 赋 nocache 标 志 */ 
4 cvima-»vm pgorr = ((u252)map Start >> PAGE SHIFT); 

5 /* 映射 */ 

6 if (remap pfn range(vma, vma-»vm start, vma-»vm pgoff, vma-»vm end - vma 
q um Start. viae vm page prot) 

8 return  -EAGAIN; 

9 return 0; 
1:0) 


上 述 代 码 第 3 行 的 pgprot noncached O 是 一 个 宏 ， 它 局 度 依赖 于 CPU 的 体系 结构 ，ARM 的 


pgprot noncached () 定义 如 下 : 


#define pgprot noncached(prot) \ 
|  pgprot modify(prot, L PTE MT MASK, L PTE MT UNCACHED) 


男 一 个 比 pgprot_noncached O 稍微 少 一 些 限 制 的 宏 是 pgprot writecombine O ， 它 的 定义 如 下 : 


#define pgprot writecombine(prot) \ 
| pgprot modify(prot, L PTE MT MASK, L PTE MT BUFFERABLE) 


pgprot noncached O 实际 禁止 了 相关 页 的 Cache 和 写 绥 冲 (Wirite Buffer? , pgprot writecombine () 
则 没有 禁止 写 缓 冲 。ARM 的 写 绥 冲 颖 是 一 个 非常 小 的 FIFO 和 存储 上 器， 位 于 人 处理 右 核 与 主 存 之 则 ， 其 目的 在 
于 将 处 理 强 核 和 Cache 从 较 慢 的 主 存 写 操作 中 解 及 出 来 。 写 缓冲 区 与 Cache 在 存储 层次 上 处 于 同一 层次 ， 但 
we EALERTS SEF. 


2.fault ©) KAŽ 


除了 remap pfn range ©) 以 外 ， 在 驱动 程序 中 实现 VMA 的 fault〈) 函数 通 沿 可 以 为 设备 提供 更 加 灵活 
的 内 存 上 映射 途径 。 当 访问 的 页 不 在 内 存 里 ， 即 有 发生 缺 页 内 贡 时 ，fault O 会 航 内 核 目 动 调用 ， 而 fault ©) 
的 具体 行为 可 以 目 定 义 。 这 和 古 因 为 当 有 发 生 缺 页 民间 时 ， 系 统 会 经过 如 下 处 理 过 程 。 


1) 找到 缺 页 的 虚拟 地 址 所 在 的 VMA。 
2) 如 和 汞 必要， 分配 中 间 页 目录 表 和 页 表 。 


3) 如 打 页 表 项 对 应 的 物理 页 面 不 存在 ， 则 调用 这 个 VMA 有 的 fault〈() 方法 ， 它 返回 物理 页 面 的 页 插 达 


4 


4) 将 物理 页 面 的 地 址 填充 到 页 表 中 。 


fault © 了 疯 数 在 Linux 的 早期 版 本 中 命名 为 nopage O ， 后 来 变更 为 了 fault O 。 代 码 清 时 11.9 给 出 了 
一 个 设备 驱动 中 使 用 fault() 的 典型 范例 。 


代码 清单 11.9” fault OO. 函数 使 用 范例 


Lotadtric Int xxx FfaulLtistrucL Vm ates SLLIuct ymar SCPUCL Vil taule *vmi) 


3. unsigned long paddr; 
unsigned long pfn; 


9 poor’ © Inder = ymi- -DJOL 

6 Struct vma data *vdata = vma->vm private data; 
7 

8 

J 
10 pin = paddr >> PAGE SHIFT; 
11 
12 vm ingert prinivma, (unsigned long)vymi=>virtual address, pin); 
13 
14 return VM FAULT NOPAGE; 
15] 


x 
—————— 因为 ， 对 于 串口 等 面向 流 的 设 
备 而 言 ， 实 现 这 种 映射 毫 无 意义 。 而 对 于 显示 、 视 频 等 设备 ， 建 立 映射 可 减少 用 户 空间 和 内 核 空间 之 间 的 
内 存 复制 。 


11.5 IO 内存 静 态 映 射 


在 将 Linux 移 植 到 目标 电路 板 的 过 程 中 ， 有 得 会 建立 外 设 IO 内 存 物 理 地 址 到 虚拟 地 址 的 静态 映射 ， 
个 映射 通过 在 与 电路 板 对 应 的 map _desc 结 构 体 数组 中 添加 新 的 成 员 来 完成 ，map desc 结构 体 的 定义 如 代码 
清单 11.10 所 示 。 


代码 清单 11.10 map desc 结 构 体 


LSUCrfuct- map deso 1 


2 unsigned long virtual; /* 虚拟 地 址 */ 

3 unsigned long pfn ; /* | phys to pf£n(phy addr) */ 
4 unsigned long length; Te e WU 

5 unsigned int type; 7* Wu wj 

6]; 


例如 ， 在 内 核 arch/arm/mach-ixp2000/ixdp2x01.c 文 件 对 应 的 Intel IXDP2401 和 IXDP2801 平 台 上 包含 一 个 
CPLD， 人 起 文件 中 残 进行 了 CPLD 物理 地 址 到 虚拟 地 址 的 衣 态 映射 ， 如 代码 请 单 11.11 所 示 。 


代码 请 单 11.11 在 电路 板 文 件 中 增加 物理 地 址 到 谍 拟 地 址 的 静态 映射 


lSratrio Struct map desc Mc cei xo desc Anida = { 
2 Virtual = JADPZX0L VIRI PDD BASE, 

3 En = phys to pfn(IXDP2X01 PHYS CPLD BASE), 
4 .length 一 IXDP2X01 CPLD REGION SIE; 

B .type - MT DEVICE 

6]; 

7 

ostati Void  Anic axdpzx0l map zo(vord) 

21 
ds ixp2000 map io(); 
11 loOtable 1inzt(e2x0p2x01 10 desoy 1); 


代码 清单 11.11 中 的 第 11 行 iotable init O 是 最 终 建立 页 映射 的 函数 ， 它 通过 MACHINE_START、 
MACHINE END 宏 赋值 给 电路 板 的 map io O 函数 。 将 Linux 操 作 系 统 移植 到 特定 平台 上 ， 
MACHINE START (或 者 DT MACHINE START) 、MACHINE END 宏 之 间 的 定义 针对 特定 电路 板 而 设 
计 ， 其 中 的 map_io() 成 员 函 数 完成 WO 内 存 的 静态 映射 。 


在 一 个 已 经 移植 好 操作 系统 的 内 核 中 ， 驱 动工 程 师 可 以 对 非常 规 内 存 区 域 的 WO 内 存 〔 外 设 控制 器 寄 
存 器 、MCU 内 部 集成 的 外 设 控制 器 寄存 器 等 ) 依 照 电路 板 的 资源 使 用 情况 添加 到 map_desc 数 组 中 ， 但 是 
有 前 该 方法 已 经 不 值得 推荐 ， 


11.06 DMA 


DMAJÉ —fIZGA2ACPUR] Z2 5 3i n] EAE Sh 5 AR Ef VA FFB IEE T OUR SU Pe I TELS]. fERIDMA 
FY DA A SECPUJA SE by HOS d Pe LEE HR BG EBORE. Mat AK ERRANAK, DM AGES Fs I5 f Pp f 
系 结构 ， 特 列 是 外 设 的 总 线 技 术 密 切 相关 。 


DMA 方 式 的 数据 传输 由 DMA 控 制 硕 (DMAC) 控制 ， 在 传输 期 间 ，CPU 可 以 并 友 地 执行 其 他 任务 。 
当 DMA 结 束 后 ，DMAC 通 过 中 断 通 知 CPU 数 据 传 输 已 经 结 束 ， 然 后 由 CPU 执行 相应 的 中 断 服 务 程序 进行 
后 处 理 。 


11.6.1 _DMA 与 Cache 一 致 性 


Cache 和 DMA 本 身 似乎 是 两 个 蝇 不 相关 的 事物 。Cache 被 用 作 CPU 针 对 内 存 的 缓存 ， 利 用 程序 的 空间 
局 部 性 和 时 间 局 部 性 原理 ， 达 到 较 融 的 命中 紊 ， 从 而 避 倪 CPU 每 次 部 必 须要 与 相对 慢 速 的 内 存 交 互 数据 来 
提 疝 数 据 的 访问 速 座 。DMA 可 以 作为 内 存 与 外 设 之 则 传输 数据 的 方式 ， 在 这 种 传输 方式 之 下 ， 数 据 并 不 


m 
需要 经 过 CPU 中 转 。 


假设 DMA 针 对 内 存 的 目的 地 址 与 Cache 绥 存 的 对 象 没 有 重 登 区域“ 如 网 11.12 所 示 ) ，DMA 和 Cache 之 
间 将 相安 无 事 。 但 是 ， 如 果 DMA 的 目的 地 址 与 Cache 所 绥 存 的 内 存 地 址 访问 有 午 且 (如 图 11.13 所 示 )〉 ， 经 
过 DMA 操 作 ， 与 Cache 绥 存 对 应 的 内 存 中 的 数据 已 经 被 修改 ， 而 CPU 本 身 并 不 知道 ， 它 仍然 认为 Cache 中 
的 数据 就 是 内 存 中 的 数据 ， 那 在 以 后 访问 Cache 映 射 的 内 存 时 ， 它 仍然 使 用 陈旧 的 Cache 数 据 。 这 样 就 会 发 
后 Cache 与 内 存 之 间 数 据 “ 不 一 致 性 ”的 错误 。 





图 11.12 DMA 目 的 地 址 与 Cache 对 象 没有 重 赫 





图 11.13” DMA 日 的 地 址 与 Cache 对 象 有 重 装 


所 谓 Cache 数 据 与 内 存 数据 的 不 一 致 性 ， 古 指 在 床 用 Cache 的 系统 中 ， 同 梓 一 个 数据 可 能 既 存 在 于 
Cache 中 ， 也 存在 于 主 存 中 ，Cache 与 主 存 中 的 数据 一 样 则 具有 一 致 人 性， 数据 在 不 一 样 则 共有 不 一 致 性 。 


南 要 特别 注意 的 是 ，Cache 与 内 存 的 一 致 性 问题 经 曲 被 急 学 者 遗 筷 。 在 友 生 Cache 与 内 存 不 一 致 性 钳 误 
后 ， 驱 动 将 无 法 正常 运行 。 如 果 没 有 相关 的 背景 知识 ， 工 程 师 几乎 无 法 定位 错误 的 原因 ， 因 为 这 时 所 有 的 
程序 看 起 来 都 是 完全 正确 的 。Cache 的 不 一 致 性 问题 并 不 是 只 肥 生 在 DMA 的 情况 下 ， 实 际 上 ， 筷 还 存在 于 
Cache 使 能 和 关闭 的 时 刻 。 例 如 ， 对 于 市 MMU 功 能 的 ARM 处 理 絮 ， 在 开局 MMU 之 前 ， 和 需要 先 置 Cache 无 
效 ， 对 于 TLB， 也 是 如 此 ， 代 码 清单 11.12 给 出 的 这 段 汇 编 可 用 来 完成 此 任务 。 


代码 清单 11.12” 置 ARM 的 Cache 无 效 


1/* cachez% */ 
2"mov r0. FU" 
"mer ols, Or «3 <i, Ci, Qu /* 使 数据 和 指令 cache 无 效 */ 


aU men Dio, Up 0. GU Gl, 42." /* 放空 写 缓冲 */ 
5 mca plos OU, WU. Coy, Gl, Qui" /* 使 TLB 无 效 */ 





11.6.2 ”Linux 下 的 DMA 编 程 


首先 DMA 本 里 不 属于 一 种 等 同 于 字符 设备 、 块 设备 和 网 络 设 备 的 外 设 ， 它 只 是 一 种 外 设 与 内 存 交 互 
数据 的 方式 。 因 此 ， 本 节 的 标题 不 是“Linux 下 的 DMA 驱 动 * 而 是 “Linux 下 有 的 DMA 编 程 ”。 


内 存 中 用 于 与 外 设 交 互 数 据 的 一 块 区 域 称 为 DMA 绥 冲 区 ， 在 设备 个 文 持 scatter/gather IUR R, f 
称 SG) 操作 的 情况 下 ，DMA 绥 冲 区 在 物理 上 必须 是 连续 的 。 


1.DMA 区 域 


对 于 x86 系 统 的 ISA 设 备 而 吾 ， 其 DMA 操 作 只 能 在 16MB 以 下 的 内 存 中 进行 ， 因此， 在 使 用 
kmalloc () ~ get free pages OO 及 其 类 似 函 数 申 请 DMA 绥 冲 区 时 应 使 用 GFP_ DMA 标志 ， 这 样 能 你 证 


获得 的 内 存 位 于 DMA 区 域 中 ， 并 具备 DMA 能 


在 内 核 中 定义 了 get free pages O 针对 DMA 的 “快捷 方式 ” get dma pages © ， 它 在 申请 标志 


添加 了 GFP DMA, Wi FITR: 


#define | get dma pages(gfp mask, order) \ 
. et free pages((gtp mask) .| GFP. DMA; (Order) 


如 果 不 想 使 用 log2size〈 即 order〉 为 参数 申请 DMA 内 存 ， 则 可 以 使 用 另 一 个 函数 
dma mem alloc C) ， 其 源 代 人 码 如 代码 清单 11.13 所 示 。 


代码 清单 11.13 dma mem alloc O) 函数 


lstatic unsigned long dma mem alloc(int size) 

an 

3 Ame Order = get -ordéer (size); /* 大 小 -> 指数 */ 
4 return get dma pages(GFP KERNEL, order); 

2j 


FRE BU KA SU ail EB. DMASERTE n] ELE SERE Fe DX ETT» ELEC DMA DX Jt ECBZ 
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2. 虚 拟 地 址 、 物 理 地 址 和 总 线 地 址 


基于 DMA 的 硬件 使 用 的 是 总 线 地 址 而 不 是 物理 地 址 ， 总 线 地 址 是 从 设备 角度 上 看 到 的 内 存 地 址 ， 物 
理 地 址 则 是 从 CPU MMU 控 制 器 外 围 角 度 上 看 到 的 内 存 地 址 (从 CPU 核 角度 看 到 的 是 虚拟 地 址 ) 。 虽 然 在 
PC 上 ， 对 于 ISA 和 PCI 而 言 ， 总 线 地 址 即 为 物理 地 址 ， 但 并 不 是 每 个 平台 都 是 如 此 。 因 为 有 时 候 接 口 总 线 
通过 桥接 电路 连接 ， 桥 接 电路 会 将 MO 地 址 映射 为 不 同 的 物理 地 址 。 例 如 ， 在 PReP (PowerPC Reference 
Platform) 系统 中 ， 物 理 地 址 0 在 设备 端 看 起 来 是 0x80000000， 而 0 通常 又 被 映射 为 虚拟 地 址 0xC0000000， 


所 以 同一 地 址 就 具备 了 三 重 身 份 : 物理 地 址 0、 总 线 地 址 0x80000000 及 虚拟 地 址 0xC0000000。 还 有 一 些 系 
统 提 供 了 页 面 映 射 机 制 ， 它 能 将 任意 的 页 面 映 射 为 连续 的 外 设 总 线 地 址 。 内 核 提 供 了 如 下 函数 以 进行 简单 
的 虚拟 地 址 /总 线 地 址 转换 : 


unsigned long virt To bus(volarile void *address); 
void “bus To Virt (unsigned Long address); 


在 使 用 IOMMU 或 反弹 绥 冲 区 的 情况 下 ， 上 述 函 数 一 般 不 会 正常 工作 。 而 且 ， 这 两 个 函数 并 不 建议 使 
用 。 如 图 11.14 所 示 ，IOMMU 的 工作 原理 与 CPU 内 的 MMU 非 党 类似 ， 不 过 它 针 对 的 古 外 设 忌 线 地 址 和 内 
存 地 址 之 间 的 转化 。 由 于 IOMMU 可 以 使 得 外 设 DMA 引 擎 看 到 “虚拟 地 址 ”>， 因 此 在 使 用 IOMMU 的 情况 
下 ， 在 修改 映射 寄存 器 后 ， 可 以 使 得 SG 中 分 段 的 缓冲 区 地 址 对 外 设 变 得 连续 。 









内 存 物理 地 址 | 总 线 地 址 


图 11.14 MMUSIOMMU 
3.DMA 地 址 掩 人 码 


设备 并 不 一 定 能 在 所 有 有 的 内 存 地 址 上 执行 DMA 操 作 ， 在 这 种 情况 下 应 访 明 过 下 列 函 数 执行 DMA 地 址 
NE 


int dma set mask(struct device *dev, u64 mask); 


例如 ， 对 于 只 能 在 24 位 地 址 上 执行 DMA 操 作 的 设备 而 言 ， 束 应 该 调用 dma set mask (dev, 
OxfffDD . 


其 实 该 API 本 质 上 就是 修改 device 结 构 体 中 的 dma _mask 成 员 ， 如 ARM 平 台 有 的 定义 为 : 


int arm dma set mask(struct device *dev, u64 dma mask) 


{ 


uf (.déev->dma_ mask || ma supported (déev;,. dma mask). 
return =LIO}; 
*dev-»dma mask = dma mask; 


return 0; 


在 device 结 构 体 中 ， 除 了 有 dma mask 以 外 ， 还 有 一 个 coherent dma mask 成 员 。dma mask 是 设备 DMA 
可 以 寻 址 的 范围 ， 而 coherent dma mask 作 用 于 申请 一 致 性 的 DMA 绥 冲 区 。 


4. 一 致 性 DMA 绥 冲 区 


DMA 了 映射 包括 两 个 方面 的 工作 : 分 配 一 厂 DMA 绥 冲 区 ; 为 这 厂 绥 冲 区 产生 设备 可 访问 的 地 址 。 同 


上 时，DMA 了 映射 也 必须 考虑 Cache 一 人 致 性 问题 。 内 核 中 提供 了 如 下 函数 以 分 配 一 个 DMA 一 人 致 性 的 内 存 区 
域 . 


vord * dima alloc coherentístruct devrce “dev, 


SIZe- b grece. dma <add. st hand le, 
gfp t gfp); 


上 述 函 数 的 返回 值 为 申请 到 的 DMA 绥 冲 区 的 虚拟 地 址 ， 此 外 ， 该 函数 还 通过 参数 handle 返 回 DMA 绥 
冲 区 的 总 线 地 址 。handle 的 类 型 为 dma addr t， 代 表 的 是 总 线 地 址 。 


dma alloc coherent O 申请 一 片 DMA 缓 神 区 ， 以 进行 地 址 映射 并 保证 访 缓 神 区 的 Cache 一 致 性 。 与 
dma alloc coherent O 对 应 的 释放 图 数 为 : 


El 


SIze LZey WONG “epu Addr; 
ama addr t-hendle); 


E FERAI Fp id P BSF CWritecombining? 的 DMA 绥 冲 区 : 


VOLO. * dma ALLOC wrstecomblDne(sSLrucccdewrce. “dev, 


Size tSizey dma addr qt 
*thandle,. Gp t GIP; 


与 dma alloc writecombine (O 对 应 的 释放 函数 dma free writecombine O 实际 上 吏 是 
dma free coherent () ， 它 定义 为 : 


#define dma free writecombine(dev,size,cpu addr,handle) \ 
dme prese coHerenti(idevysrzescpu ador;hasdle) 


此 外 ，Linux 内 核 还 提供 了 PCI 设 备 申请 DMA 绥 剖 区 的 函数 pci alloc consistent () ， 其 原型 为 : 


ee ep ey "ev S126 TL. S1207 dma addr- t dma S000) 


对 应 的 释放 函数 为 pci free consistent O ， 其 原型 为 : 


VOLO DCL LTC CONSI SCUO qos uev so 


oque JS L265: VOU! “Cou addr; 
dma addr t.dma addr); 


这 里 我 们 要 强调 的 是 ，dma alloc xxx O 图 数 虽然 是 以 dma alloc FAW, (ALLA S I XIE 


在 DMA 区 域 里 面 。 以 32 位 ARM 处 理 需 为 例 ， 当 coherent dma mask 小 于 0xfftpnjy， 才 会 设置 GFP DMA 标 
记 ， 并 从 DMA 区 域 去 申请 内 存 。 


在 我 们 使 用 ARM 竺 有 艇 入 式 Linux 系 统 的 时 候 ， 一 个 涉 疼 的 问题 是 GPU、Camera、HDMI 等 都 需要 预 留 


大 量 连 续 内 和 存 ， 这 部 分 内 存 平时 不 用 ， 但 是 一 般 有 的 做 法 又 必须 先 预 留 厦 。 目 前 ，Marek Szyprowski 和 


Michal Nazarewicz 实 现 了 一 套 全 新 的 CMA， (Contiguous Memory Allocator) 。 通 过 这 和 套 机 制 ， 我 们 可 以 做 


到 不 预 留 闪存， 这 些 内 存 平 时 是 可 用 的 ， 只 有 当 需 要 的 时 候 才 彼 分 配给 Camera、HDMI 等 设备 。 


CMA 对 上 呈现 的 接口 是 标准 的 DMA， 也 是 一 任性 缓冲 区 API。 关 于 CMA 的 进一步 介绍 ， 可 以 参 
考 http://Ilwn.net/Articles/486301/ 的 文档 《A deep dive into CMA) . 


5. 流 式 DMA 映 射 


并 不 是 所 有 的 DMA 缓 冲 区 都 是 驱动 申请 的 ， 如 果 是 驱动 申请 的 ， 用 一 致 性 DMA 缓 冲 区 自然 最 方便 ， 
这 直接 考虑 了 Cache 一 致 性 问题 。 但 是 ， 在 许多 情况 下 ， 缓 冲 区 来 自 内 核 的 较 上 层 〈 如 网 卡 驱动 中 的 网 络 
报 文 、 块 设备 驱动 中 要 写 入 设备 的 数据 等 ) ， 上 层 很 可 能 用 普通 的 kmalloc O . — get free pages O 等 
方法 申请 ， 这 时 候 就 要 使 用 流 式 DMA 了 映射 。 流 式 DMA 缓 冲 区 使 用 的 一 般 步骤 如 下 。 


1) 进行 流 式 DMA 了 映射 。 

2) 执行 DMA 操 作 。 

3) 进行 流 式 DMA 去 映射 。 

流 式 DMA 映 射 操作 在 本 质 上 大 多 就 是 进行 Cache 的 使 无 效 或 清除 操作 ， 以 解决 Cache 一 致 性 问题 。 


相对 于 一 致 性 DMA 了 映射 而 言 ， 流 式 DMA 了 映射 的 接口 较为 复杂 。 对 于 单个 已 经 分 配 的 缓冲 区 而 言 ， 使 
用 dma map single Ò 可 实现 流 式 DMA 了 上 映射 ， 充 函数 原型 为 : 


dma addr t dma. map single (struct device “dev; void “butter, cize t S1L26; 
enum dma data direction direction); 


如 果 有 映射 成 功 ， 返 回 的 是 总 线 地 址 ， 和 否则 ， 返 回 NULL。 第 4 个 参数 为 DMA 的 方向 ， 可 能 的 值 包括 
DMA TO DEVICE. DMA FROM DEVICE. DMA BIDIRECTIONAL 和 DMA NONE. 


dma map single O ØR rÉZX7Jdma unmap single © ， 原 型 是 : 


void dma unmap Single (struct ‘device “dev, dma addr © dma addr, Gize t size, 
enum: dma aara direction GLrectron); 


第 情况 下 ， 设 备 驱 动 个 应 该 访问 unmap 的 流 式 DMA 绥 冲 区 ， 如 果 一 么 做 ， 可 先 使 用 如 下 函数 
获得 DMA 绥 冲 区 的 拥有 权 : 


void dma Sync single. for cpu(struct device ^dev, dma handle © bus addr; 
Size L Size, enum dma data. direction OIXecLLOm) 


FE BRAY HEDMARK J MAZXMERADBPUH NORLA, XXn ug PEE 


VOLO Oma Sync single for deviceistruct device "dev, dma handle T Dus addr, 
gairo © Size, enum dma Gata Girecuiom direc ion)? 


如 果 设 备 要 求 较 大 的 DMA 缓 冲 区 ， 在 其 支持 SG 模式 的 情况 下 ， 申 请 多 个 相对 较 小 的 不 连续 的 DMA 组 
冲 区 通 间 是 防止 申请 太 大 的 连续 物理 空间 的 方法 。 在 Linux 内 核 中 ， 使 用 如 下 函数 映射 SG: 


PIED dma Map. Sgro Cr UCC device. “dev, Strucu SCALE las: og, INe nens, 
enum dma data C1recr Onl Lrectron).y 


nents 是 散 列 表 Cscatterlist) AMA, VE PAAR IEE XEDMAZX HX Nae, Al Ae) Fnents. Xf 
于 scatterlist 中 的 每 个 项 目 ，dma map sg O 为 设备 产生 恰当 的 电线 地 址 ， 它 会 合并 物理 上 临近 的 内 存 区 
域 。 


scatterlist 结 构 体 的 定义 如 代码 清单 11.14 所 示 ， 它 包含 了 与 scatterlist 对 应 的 页 结构 体 指针 、 绥 冲 区 在 页 
中 的 偏 移 Coffset) 、 绥 冲 区 长 度 Cength) 以 及 总 线 地 址 (dma address) . 


代码 清单 11.14 scatterlist 结 构 体 


lstruct scatterlist 4 
24ifdef CONFIG DEBUG SG 


3 unsigned long Sg Magic; 
A#tendif 

9 unsigned long page link; 

6 unsigned int offset; 

7 unsigned int length; 

8 dma addr t dma address; 
9#ifdef CONFIG NEED SG DMA LENGTH 
LO unsigned int dma length; 
llfendif 
12}; 


执行 dma map sg ©) 后 ， 通 过 sg dma address () 可 返回 scatterlist 对 应 缓冲 区 的 总 线 地 址 ， 
sg dma len O 可 返回 scatterlist 对 应 缓冲 区 的 长 度 ， 这 两 个 函数 的 原型 为 : 


dme addr t so dma. dddress(struct gcoatterlist Tog); 
UNS LOMO. Ine Sg dua lenteLrupgt Scat er iSt “9; 


在 DMA 传 输 结 束 后 ， 可 通过 dma map sg ©) 的 反 函 数 dma unmap sg ©) 除去 DMA 了 映射 : 


void xuma-unmmap eg(sSbrucc device "dev, Okr rU GOALE LIS LESE; 
Int Tentes enum dma data direction drrectlons); 


SG 映射 属于 流 式 DMA 了 映射 ， 与 单一 缓冲 区 情况 下 的 流 式 DMA 有 映射 类 似 ， 如 果 设 备 驱 动 一 定 要 访问 映 
射 情 况 下 的 SG 绥 种 区 ， 应 该 先 调用 如 下 郴 数 : 


void CMa Sve Sg LOL OpuistPutt device: 'sdev,; SOEITUCL SCOLLSEILLESUC 799; 
Lnt ments. mun, dme dara dlrectron drrectiog ; 


访问 完 后 ， 通 过 下 列 函数 将 所 有 权 返 回 给 设备 : 


VOOr Ma. SYNC SO tor ev Ce Cr UC device “Gey, LIUCL Scatter list. “sq; 
Ine Tents “Rul dma ida ve. cdrrectzronm Greet Lon)? 


在 Linux 系 统 中 可 以 用 一 个 相对 简单 的 方法 预先 分 配 缓冲 区 ， 那 融 是 同步 “mem= ”参数 预 留 内 存 。 例 
如 ， 对 于 内 存 为 64MB 的 系统 ， 通 过 给 其 传递 mem=62MB 命 令 行 参数 可 以 使 得 顶部 的 2MB 内 存 被 预 留 出 来 
作为 IO 闪存 使 用 ， 这 2MB 内 存 可 以 被 辣 态 映射 ， 也 可 以 被 执行 ioremap © 。 


6.dmaengine 标 准 API 


Linux 内 核 目 前 推荐 使 用 dmaengine 的 驱动 架构 来 编 王 DMA 控制 占 的 驱动 ， 同 时 外 设 的 驱动 使 用 标准 的 
dmaengine API 进 行 DMA 的 准备 、 友 起 和 完成 时 的 回调 工作 。 


和 中 上 断 一 样 ， 在 使 用 DMA 之 前 ， 设 备 张 动 程序 需 首 先 同 dmaengine 系 统 申 请 DMA 通 道 ， 申 请 DMA 退 
道 的 函数 如 下 : 


SO dma chan Yoana request slave Channel (Struct device “dev, Const char *name) 7 
STEUCL GMa chan. ™ om request Channel (const dma Cap mask t. "mask; 
dma Tilter Tn iny Void Win peram); 


EA SEDMAGHIE a, MIZAH AU F ee RE 


void dina release Channel (Struct dua Chan. *chan); 


Jn. ARO IS 1.15] Z7 a OFF i IK DMAPETE CN 
dmaengine prep slave single O 准备 好 一 些 DMA 摘 述 符 ， 并 项 宛 其 完成 回调 为 
xxx dma fini callback () ， 之 后 通过 dmaengine submit © 把 这 个 摘 述 符 插 入 队列 ， 再 通过 
dma async issue pending O 发 起 这 次 DMA 动 作 。DMA 完 成 后 ，xxx dma fini callback © 函数 会 被 
dmaengine 驱 动 自动 调用 。 


代码 清单 11.1$ ”利用 dmaengine API 友 起 一 次 DMA 操 作 


lStatic voxd xxx dma fini callbacki(void. *data) 
24 


3 struct ‘completion *dma conplete. = data; 
4 

5 complete (dma compiete); 

6 } 


4 
Sissue. xxx dma (ses) 


10 rx desc = dmaengine prep slave singlé (xxx->rx chan; 
ll Xxx-^20s8St Start, t-^len, DMA DEV TO MEM, 

12 DMA PREP INTERRUPT | DMA: CTRL ACK); 

13 rx desc- >callback = Xxx dma fini callback; 

14 rx desc-»callback param = &xxx-»rx done; 

1:5 

16 dmaengrzne Submit (rx desc); 

Ly dma async issue pending(xxx-»rx chan); 


11.7 总 结 


外 设 可 处 于 CPU 的 内 存 空间 和 LO 空间 ， 除 x86 外 ， 风 入 式 处 理 器 一 般 只 存在 内 存 空间 。 在 Linux 系 统 
中 ， 为 IO 内 存 和 IO 端口 的 访问 提高 了 一 套 统一 的 方法 ， 访 问 流程 一 般 为 “申请 资源 一 映射 一 访问 一 去 映 
射 一 释放 资源 ”。 

对 于 有 MMU 的 处 理 器 而 言 ，Linux 系 统 的 内 部 布局 比较 复杂 ， 可 直接 映射 的 物理 内 存 称 为 第 规 内 存 ， 


超出 部 分 为 高 端 内 存 。kmalloc () 和 get free pages O 申请 的 内 存在 物理 上 连续 ， 而 vmalloc () 申请 
的 内 存在 物理 上 不 连续 。 


DMA 控 a 作 可 能 导 人 至 Cache 的 不 一 至 性 问题 ， 因 此 ， 对 于 DMA 绥 冲 ， 应 该 使 用 dma alloc coherent O 等 
方法 申请 。 在 DMA 操 作 中 涉及 总 线 地 址 、 物 理 地 址 和 虚拟 地 址 等 概念 ， 区 分 这 3 类 地 址 非常 重要 。 


第 12 章 — Linux 设备 驱动 的 软件 染 构 思想 
本 章 导读 


在 前 面 几 章 我 们 看 到 了 globalmem、globalfifo 这 样 交 型 的 答 单 的 字符 设备 驱动 ， 但 是 ， 纵 观 Linux 内 核 
的 源 代 但 ， 谍 者 几乎 找 不 到 有 如 此 人 徐 单 形 云 的 张 动 。 


在 实际 的 Linux 张 动 中 ，Linux 内 核 尽 量 做 得 更 多 ， 以 便于 展 层 的 张 动 可 以 做 得 更 少 。 而 且 ， 也 特别 踢 
调 了 驱动 的 器 平台 特性 。 因 此 ，Linux 内 核 势 必 会 为 个 同 的 驱动 子 系统 设计 不同 的 框 淋 。 
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12.2 以 platform 为 例 ， 全 面 介绍 了 platform 设 备 和 驱动 ， 以 及 platform 的 意义 。 从 而 讲 明 了 Linux 内 核 中 
驱动 和 设备 分 离 的 优点 。 

12.3 广 以 RTC、Framebuffer、input、tty、 疡 傈 设备 驱 动 守 为 例 ， 讲 解 了 驱动 分 层 、 核 心 层 与 的 层 交 互 
HJ — 8x YE e 


12.4 贡 分 机 了 Linux 设 备 驱 动 中 主机 与 外 设 张 动 分 离 的 设计 思 力 ， 并 以 SPI 主 机 和 外 设 张 动 为 例 进 行 了 
fc UE « 


12.1  _ Linux 驱动 的 软件 架构 


Linux 不 是 为 了 未 单一 电路 板 而 谈 计 的 操作 系统 ， 它 可 以 文 持 约 30 种 体系 结构 下 一 定数 量 的 使 件 ， 
此 ， 它 的 驱动 染 构 很 显然 不 能 像 RTOS 下 或 者 无 控 作 系统 下 那么 小 儿科 的 做 法 。 


Linux 设 备 张 动 非常 重视 软件 的 可 重用 和 路 平台 能 力 。 辟 如， 如 果 我 们 与 下 一 个 DM9000 网 卡 的 驱动 ， 
Linux 的 想法 是 这 个 张 动 应 该 最 好 一 行 都 不 要 改 束 可 以 在 任何 一 个 平台 上 跑 起 来 。 为 了 做 到 这 一 点 《看 似 
很 难 ， 因 为 每 个 板子 连接 DM9000 的 基地 址 ， 中 新 扎 什 么 的 都 可 能 不 一 样 ) ， 驱 动 中 势必 会 有 关 似 这 样 的 
代码 : 

#ifdef BOARD XXX 

#define DM9000 BASE 0x10000 
#define DM9000 IRQ 8 

#elif defined(BOARD YYY) 
#define DM9000 BASE 0x20000 
#define DM9000 IRQ 7 

#elif defined(BOARD 222) 
#define DM9000 BASE 0x30000 


#define DM9000 IRQ 9. 
tendir 


上 述 代码 主要 有 如 下 问题 : 


L) 此 段 代 码 看 起 来 面目 可 展 ， 如 果 有 100 个 板子 ， 束 要 ipelse 100 识 ， 到 了 第 101 个 板子 ， 又 得 重新 加 
ipelse。 代 但 进行 看 徐 单 的 “复制 一 粘贴 ”>， “复制 一 粘贴 ?去 的 简单 重复 通常 意味 独 代 但 编写 者 的 水 平 很 
Fae 


2) 非常 难 做 到 一 个 驱动 文 持 多 个 设备 ， 如 果 某 个 电路 板 上 有 两 个 DM9000 网 卡 ， 则 DM9000_BASE 这 
个 宏 就 不 够 用 了 ， 此 时 势必 要 定义 出 来 DM9000 BASE 1, DM9000 BASE 2. DM9000 IRQ 1. 
DM9000 IRQ 2 类 的 宏 ; 定义 了 DM9000 BASE 1、DM9000 BASE 2 后 ， 如 果 叉 有 第 3 个 DM9000 网 卡 加 到 
板子 上 ， 前 面 的 代码 就 又 不 适用 了 。 


3) 依赖 于 make menuconfigw HY IM H 来 编译 内 核 ， 因 此 ， 在 不 同 的 便 件 平台 下 要 依赖 于 所 选择 的 
BOARD XXX. BOARD YYY 选 项 来 决定 代码 逻辑 。 这 不 符合 ARM Linux 3.x 一 个 映像 适用 于 多 个 人 硬件 的 
目标 。 实 际 上 ， 我 们 可 能 同时 选择 了 BOARD XXX. BOARD YYY、BOARD ZZZ. 


我 们 按照 上 面 的 方法 编写 代码 的 时 候 ， 相 信 自 己 编 着 编 着 也 会 党 得 奇怪 ， 闻 到 了 代码 里 不 好 的 味道 。 
这 个 时 候 ， 请 集 下 你 飞 奔 的 脚步 ， 等 一 等 你 的 灵魂 。 我 们 有 没有 办 法 把 设备 病 的 信息 从 驱动 里 面 剥 离 出 
来 ， 让 驱动 以 某 种 标准 方法 拿 到 这 些 平台 信息 呢 Linux 总 线 、 设 备 和 驱动 模型 实际 上 可 以 做 到 这 一 点 ， 豫 
动 只 管 驱动 ， 设 备 只 管 设备 ， 总 线 则 儿 责 匹配 设备 和 了 驱动， 而 驱动 则 以 标准 途径 拿 到 板 级 信息 ， 这 样 ， 豫 
动 束 可 以 放 之 四 海 而 宵 准 了 ， 如 图 12.1 所 示 。 


Linux 的 字符 设备 驱动 需要 编写 fle_ operations R PRA, JP fA vi XbPRDHSE. JAE, SKRA SIGIO 
等 复杂 事物 。 但 是 ， 当 我 们 面 对 一 个 真实 的 硬件 驱动 时 ， 假 如 要 编写 一 个 按键 的 驱动 ， 作 为 一 个 “懒惰 ?的 
程序 员 ， 你 真 的 只 想 做 最 简单 的 工作 ， 壁 如 ， 收 到 一 个 按 刍 中断、 汇报 一 个 按键 值 ， 公 于 什么 
file_operations、 几 种 IO 模型 ， 那 是 Linux 的 事情 ， 为 什么 要 我 管 Linux 也 是 程序 员 写 出 来 的 ， 因 此 ， 程 序 员 
怎么 想 ， 它 必然 要 怎么 做 。 于 是 ， 这 里 就 衍生 出 来 了 一 个 软件 分 层 的 想法 ， 尽 管 le_operations、IO 模 型 
不 可 或 缺 ， 但 是 关于 此 部 分 的 代码 ， 全 世界 念 介 所 有 的 输入 设备 都 是 一 样 的 ， 为 什么 不 提 炬 一 个 中 间 层 出 
来 ， 把 这 些 事情 搞定 ， 也 就 是 在 底层 编写 驱动 的 时 候 ， 搞 定 上 基体 的 硬件 操作 呢 ? 


将 软件 进行 分 层 设 计 应 该 古 软件 工程 最 基本 的 一 个 思想 ， 如 来 所 炬 一 个 input 的 核心 层 出 来 ， 把 跟 
Linux 接 口 以 及 人 整个 一 套 input 事 件 的 汇报 机 制 都 在 这 里 面 实 更， 如 图 12.2 所 示 ， 有 显然 是 非 钟 好 的 。 


便 件 操作 





图 12.1 Linux 设 备 和 豫 动 的 分 离 


各 种 IO 模型 各 种 IO 模型 各 种 WO 模型 


输入 设备 1 驱动 输入 设备 3 驱动 


各 种 IO 模型 


input 核 心 层 


没 备 1 输 入 事件 没 备 2 输 入 事件 没 备 3 输 入 事件 
获取 和 报告 获取 和 报告 获取 和 报告 





图 12.2 ”Linux 驱 动 的 分 层 


在 Linux 设 备 驱 动 栓 染 的 设计 中 ， 除 了 有 分 层 设 计 以 外 ， 还 有 分 隔 的 忠 想 。 举 一 个 价 蛙 的 例子 ,假设 
我 们 要 通过 SPI 总 线 访问 某 外 设 ， 假 设 CPU 的 名 字 叫 XXX1，SPI 外 设 叫 YYY1。 在 访问 YYY1 外 设 的 时 候 ， 
要 通过 操作 CPU XXX1 EBJSPITSEI SSH) ar £287] HEX 2 Ui IH SPIZ FUE YYYIBUHB, efai P B) f 3227 8: 
FE: 

cpu xxxl spi reg write () 


cpu xxxl spi reg read() 
spi client yyyl workl () 


cpu xxxl spi reg write() 
cpu xxxl spi reg read) 
spi client yyyl work2() 


如 条 按 照 这 种 方式 来 设计 驱动 ， 结 束 对 于 任何 一 个 SPI 外 设 来 讲 ， 它 的 驱动 代码 都 是 与 CPU 相关 的 。 
EMm SSH ECPU XXX1 上 的 时 候 ， 它 访问 XXX1 的 SPI 主 机 控制 寄存 器， 当 用 在 XXX2 上 的 时 
修 ， 它 访问 XXX2 的 SPI 主 机 控制 寄存 器 : 

Gpu XXxXZ Spi. reg WE 
CDU. XXx2 Spa reg read) 
spi client yyyl workl() 
Cpu XXX2 spi reg write) 


cpu xxx2 Spl reg read () 
opor clrent yyyl work21) 


这 显然 是 不 被 接受 的 ， 因 为 这 意味 着 外 设 YYY1 用 在 不 同 的 CPU XXX1 和 XXX2 上 的 时 候 需 要 不 同 的 
驱动 。 同 时， 如 果 CPU XXX1 除 了 支持 YYY1 以 外 ， 还 要 支持 外 设 YYY2、YYY3、YYY4 等 ， 这 个 XXX 的 


代码 就 要 重复 出 现在 YYY1、YYY2、YYY3、YYY4 的 驱动 里 面 : 


cpu xxxl spi reg write() 
Cpu xxl Spr reg read) 
spi client yyy2 workl () 
cpu XL Spi reg write) 
cpu xxxl spi reg read() 
Spl Client Vvyy2 WOTE AJ 


按照 这 样 的 馆 辑 ， 如 宁 要 让 N 个 不 同 的 YYY 在 M 个 不 同 的 CPU XXX 上 跪 起来， 需要 M*N 份 代码 。 这 
古 一 种 奥 型 的 强攻 合 ， 不 符合 软件 工程 "高 内 聚 、 低 炎 合 ”和 ”信息 隐蔽 ”的 基本 原则 。 


这 种 软件 架构 是 一 种 典型 的 网 状 粳 合 ， 网 状 粳 合 一 般 不 太 适 合 人 类 的 思维 远 辑 ， 会 把 我 们 的 思维 损 
mlo OTS RRR HIM : N， 我 们 一 般 要 提炼 出 一 个 中 则 “1”， 让 M 与 “1” 掉 合 ，N 也 与 这 个 “1” 精 合 ， 如 图 
12.3 所 示 。 
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WA, BRAT AY EAE SU ES 12.4 rz B5) AS A606] EHLE e SY AP SEAT OP A o XOREHU Zu RE, Phu 
YYY1、YYY2、YYY3、YYY4 的 驱动 与 主机 控制 器 XXX1、XXX2、XXX3、XXX4 的 驱动 不 相关 ， 主 机 
控制 右 驱 动 不 关 心 外 设 ， 而 外 设 驱 动 也 不 关心 主机 ， 外 设 只 是 访问 核心 层 的 通用 API 进 行 数据 传输 ， 主 机 
和 外 设 之 间 可 以 进行 任意 组 合 。 


外 设 a 
驱动 
外 设 b 
驱动 
外 设 c 


图 12.4 ” ”Linux 设备 驱 动 的 主机 、 外 设 驱 动 分 离 





如 果 我 们 不 进行 如 图 12.4 所 示 的 主机 和 外 设 分 离 ， 外 设 YYY1、YYY2、YYY3 和 主机 XXX1、 
XXX2、XXX3 进 行 组合 的 时 候 ， 需 要 9 个 不 同 的 驱动 。 设 想 一 共有 mm 个 主机 控制 右 ，n 个 外 设 ， 分 次 的 结 
需要 m+n 个 驱动 ， 不 分 离 则 需要 m*n 个 驱动 。 因 为 ，m 个 主机 控制 器 ，n 个 外 设 的 驱动 都 可 以 被 充分 地 
J 


O 


JE 
H 


RD 


12.2 ”platform 设备 驱动 
12.2.1 platform 总 线 、 设 备 与 驱动 


在 Linux 2.6 以 后 的 设备 张 动 模型 中 ， 需 关心 总 线 、 设 备 和 张 动 这 3 个 实体 ， 总 线 将 设备 和 张 动 绑 定 。 
在 系统 每 注册 一 个 设备 的 时 候 ， 会 如 找 与 乙 匹 配 的 驱动 ， 相反 的 ， 在 系统 每 注册 一 个 驱动 的 时 候 ， 会 寻找 
与 之 匹配 的 设备 ， 而 匹配 由 总 线 完 成 。 


一 个 现实 的 Linux 设 备 和 驱动 通常 都 需要 挂 接 在 一 种 总 线 上 ， 对 于 本 身 依附 于 PCI、USB、I*C、SPI 等 
的 设备 而 言 ， 这 上 自然 不 是 问题 ， 但 是 在 租 入 式 系 统 里 面 ， 在 SoC 系 统 中 集成 的 独立 外 设 控 制 器 、 挂 接 在 
SoC 内 存 空间 的 外 设 等 却 不 依附 于 此 类 总 线 。 基 于 这 一 背景 ，Linux 发 明了 一 种 虚拟 的 总 线 ， 称 为 platform 
总 线 ， 相 应 的 设备 称 为 platform device， 而 驱动 成 为 platform driver. 


注意 : 所 谓 的 platform _ device 并 不 是 与 字符 设备 、 芯 说 备 和 网 络 设备 并 列 的 概念 ， 而 是 Linux 系 统 提 供 
的 一 种 附加 手段 ， 例 如 ， 我 们 通常 把 在 SoC 内 部 集成 的 [LC、RTC、LCD、 看 门 狗 等 控制 器 都 归纳 为 
platform device, MENA LER Rr. platform device fA IJ xe ON Sia 8. 12.1 Prz e 


代码 清单 12.1 platform device 结 构 体 


lstruct platform device 4 


2 const char *name; 

3 Zac rd? 

4 boo id auto; 

5 Struct devicedev; 

oO 152 num resources; 

1 struct resource "resources 

8 

9. Const struct platform device ad "Ed entry; 
10 char *driver override; /* Driver name to force a match */ 


l2  JJ* MED Gell pointer *7/ 
l3 S Cru mid ceil mid cell; 


14 

15. J* arch specific additions *7 

IG struct paev archdata archdata; 
17} 


platform driver 这 个 结构 体 中 包含 probe ©) ~ remove O 、 一 个 device driver 实例、 电源 管理 函数 
suspend () ~ resume () ， 如 代码 清单 12.2 所 示 。 


代码 清单 12.2 platform driver 结 构 体 


lStruct platiorm Craver 4 

Lit reeoe TStruct plactosum device *)4 

Int (remove) (Struce platrorm device ~j; 

void. (*shutdown) (Struct. platform device: 5); 

ant. ("pus peni (Struct platrFrorm device ~; pu message C State); 
inr (resume) (struce pilgatrorm device: ws 

struct device driver driver; 

Conse Sbtruct platrorm device nd ~id table; 

bool prevent deferred probe; 


O XO OO «JI Oy Or d LO RO 


m 
一 一 
“Ne 


HI platform driver 的 suspend ©) . resume O 做 电源 官 理 回调 的 方法 目前 已 经 过 时 ， 较 好 的 做 
法 是 实现 platform drivertJdevice driver 中 的 dev pm ops 结 构 体 成 员 〈 后 续 的 Linux 电 源 管 理 章 节 会 对 此 进行 
更 细致 的 介绍 ) ， 人 代码 清单 12.3 给 出 了 device driver] X. 


代码 清单 12.3 device driver 结构 体 


kC POCE: device dryer. 1 


2 const char *name; 
3 struct Dus type "OUS 
4 
5 struct module *owner; 
6 Cons ©. char "mod name;  J* used for built-in modules */ 
7 
8 bool suppress bind attrs; /* disables bind/unbind via sysfs */ 
9 
10 CONUS SEruet cf -device: id "Od maio tanle; 
LL Const -Struct aC pL device Id *aocpr maton Table; 
12 
T3 int (*probe) (struct device *dev); 
14 int (*remove) (struct device *dev); 
TS void (*shutdown) (struct device *dev); 
16 int (suspend) XSLIPUGD device “dev, pm Message T State), 
T int (*resume) (struct device *dev); 
18 Conse “Struce aver bure group- groups; 
150 
2.) CODnSL-SLtPUCLC dev ‘pm Gps “pm; 
zn 
22 SUPUCCLOIIVerf Private "p; 
29 


P i2c driver. spi driver. usb driver. pci driver 中 都 包含 了 device driver 结 构 
体 实例 成 员 。 它 其 实 描述 了 各 种 xxx driver (xxx ARA) 在 驱动 意义 上 的 一 些 共性 。 


系统 为 platform 忌 线 定 义 了 一 个 bus type 的 实例 platform bus type， 其 定义 位 于 drivers/base/platform.c 
下 ， 如 代 但 清单 12.4 所 示 。 


代 但 清单 12.4 platform 总 线 的 bus_type 实 例 platform bus type 


LSprlct Due ype pst opm bus: type = 4 


2 .name = “oO Latr oO im, 

3 dev “Groups = platform dev groups, 
4 .match = platform match, 

5 .UeVent —plstorm Usvent, 

6 . pm =o plac orn dey. pm Ops, 
7); 


这 里 要 重点 关注 其 match O MER A, EK EFL CUR J platform. devicefllplatform driver [P] 7 
如 何 进行 下 配 ， 如 代码 清单 12.5 所 示 。 


代码 清单 12.3 platform bus type 的 match () X pk Av 


ee 


| 

3 Cruce PLA c orm device: apdet = us platrorm.:odeviice(tdev)s 
4 SLEUCE. plagttorm drivers ^pudrv = vo Plat orm Craver (dry); 
5 

6 L* Attempt an OF Style match first */ 

7 LI (of drrver match device(dey,; dev) 

8 return 1; 

9 
TO /* Then try ACPI style match */ 


11 Lf (acpi driver match devicetdev, -drv):) 


12 return s 

T3 

14 /* Then try to match against the id table */ 

ro it Xpdrv-23d table) 

1:8 return platform macchi ad(pdry=>10 cable, pdev) t= NULL; 
17 

18 /* fall-back to driver name match */ 

19 return (strcmp (pdev->name, drv->name) == 0); 

20} 





对 于 Linux 2.6ARM 平 台 而 言 ， 对 platform device 的 定义 通 利 在 BSP 的 板 文 件 中 实现 ， 在 板 文件 中 ， 将 
platform _ device 归纳 为 一 个 数组 ， 最 终 通 过 platform_ add devices () 函数 统一 注册 。 
platform add devices〈) 术 数 可 以 将 平台 设备 添加 到 系统 中 ， 这 个 函数 的 原型 为: 


int plgttorq add devicesistruct pLatrloru device ^"devs, mt num; 


该 图 数 的 第 一 个 参数 为 平台 设备 数组 的 指针 ， 人 第 二 个 参数 为 平台 设备 的 数量 ， 它 内 部 调用 了 
platform device register O 函数 以 注册 单个 的 平台 设备 。 





12.2.2. ”将 globalfifo 作 为 platform 设 备 


现在 我 们 将 前 面 草 和 的 globalfifo 驳 动 挂 接 到 platform 总 线 上 ， 这 要 完成 两 个 工作 。 


1) 将 globalfifo 移 植 为 platform 驱 动 。 


2) 在 板 文 件 中 添加 globalfifo 这 个 platform 设 备 。 





platform driver 的 外 索 ， 如 代码 清单 12.6 所 示 。 注 意 


H EKRE SI) y platformi zk E. 





质 ， 


Y 


代码 清单 12.6 ”为 globalfifo 添 加 platform driver 


行 这 一 工作 后 ， 并 没有 改变 globalfifo 是 字符 设备 的 本 


上 


Z1 


28 


int ret; 
dev © devno = MÉ&BbV(globalfiro mayor, U)? 


LE (globalfifo major) 
ret — register chrdev region(devno, 1, 
else { 
pet = alloc chrdey regron(sdevHoy Up dy 
gLobalrito major = MAJOR (devo) ; 
) 
if (ret < 0) 
return ret; 


globalfifo devp - devm kzalloc(&pdev-»dev, 
GFP KERNEL); 
nr (lgloDALtrto devp) 4 
ret = -ENOMEM; 
goto fail malloc; 


j 

globalrtrro setup: ocdeviglobalrito devp, O0); 
mutex init(&globalfifo devp-»mutex); 

init waitqueue head(&globalfifo devp->r wait); 


init waitqueue head(&globalfifo devp->w wait); 


return 0; 


2oranl malloc: 


30 
oL 
32] 
33 


unregister chrdev reqioni(devno, 45 
Ierurn Feu; 


"globalfifo"); 


"globaltzro"); 


SIzeof(^glLlobaLbnro devp); 


24Sratlo ane globalbLlro remove(struct platroru device *pdev) 


35( 
36 
27 
38 
39 
40} 
41 
42static 
43 
44 
45 
46 
47 
48 
49}; 
50 


cdev del (&globalfifo devp->cdev) ; 


unregister chrdev regron(MKDEV(globalfito major, Oy, 1); 


return 0; 


SLrucb platfoun driver globDalfifo driver e 4 
.driver = { 
.name = "globalfifo", 


Owner = THIS MODULE, 
by 
probe —-globalrtiro probe; 
.remove = globalfifo remove, 


oLmodule. platform driveri(oloDallilfo driver); 


在 代码 清单 12.6 中 ，module platform driver © 安 所 定义 的 模块 加 载 和 地 载 图 数 仅仅 通过 
platform driver register () ~ platform driver unregister () PAZ XtfT platform driver 的 注册 与 注销 ， 而 原先 
注册 和 注销 字符 设备 的 工作 已 经 被 移交 到 platform driver 的 probe () 和 remove ©) 成 员 函 数 中 。 


代码 清单 12.6 未 列 出 的 部 分 与 原始 的 globalfifo 驱 动 相 同 ， 都 是 实现 作为 字符 设备 驱动 核心 的 
file _ operations 的 成 员 函 数 。 注 册 完 globalfifo 对 应 的 platform driver 后， 我 们 会 发 现 / sys/bus/platform/drivers H 
录 下 多 出 了 一 个 名 字 叫 globalfifo 的 子 目 录 。 





为 了 完成 在 板 文件 中 添加 globalfifo 这 个 platform 设 备 的 工作 ， 需 要 在 板 文 件 arch/arm/mach-<soc 名 
>/mach-< 板 名 >.c) 中 添加 相应 的 代码 ， 如 代码 清单 12.7 所 示 。 


代码 清单 12.7， 与 globalfifo 对 应 的 platform device 


Iotatlie Struct plartrorm device globalrilo device = 
2 „name = "globalfifo", 

B sg = och, 

4); 


并 了 最 终 通 过 类 似 于 platform_ add devices © 的 函数 把 这 个 platform device 注 册 进 系统 。 如 末 一 切 顺 
利 ， 我 们 会 在 / sys/devices/platform 目录 下 看 到 一 个 名 字 叫 globalfifo 的 子 目 录 ，/ sys/devices/platform/ globalfifo 
中 会 有 一 个 driver 文 件 ， 它 是 指向 /sys/bus/platformy/drivers/globalfifp 的 符号 链接 ， 这 证 明 驱 动 和 设备 匹配 上 
T 





12.2.3 platform 设备 资源 和 数据 


留意 一 下 代码 清单 12.1 中 platform device 结 构 体 定义 的 第 6~7 行 ， 它 们 摘 述 了 platform device] Vk, 
资源 本 号 由 resource 结 构 体 描述 ， 其 定义 如 代码 清早 12.8 所 示 。 


代码 清单 12.8 resource 结构 体 定义 


lstruct resource { 


const char *name; 


YAO OB W NY 


—— 
“Ne 


unsigned long flags; 
struct resource *parent, *sibling, *child; 


resource Size. t Start: 
resource Size t end; 


我 们 通 钊 关心 start、end 和 fags 这 3 个 字段 ， 它 们 分 别 标明 了 资源 的 开始 值 、 结 束 什 和 类型 ，flags 可 以 
ZJIORESOURCE IO, IORESOURCE MEM, IORESOURCE IRQ. IORE-SOURCE DMA 等 。start、end 的 


含义 会 随 着 flags 而 变更 ， 如 当 flags 为 IJORESOURCE MEM 时 ，start、end 分 别 表示 该 platform device SHH) 
内 存 的 开始 地 址 和 结束 地 址 ; 当 flags 为 IJORESOURCE IRQ}, start. endo) Ji] 2A iz platform. device 使 用 的 
中 断 号 的 开始 值 和 结束 值 ， 如 果 只 使 用 了 1 个 中 断 号 ， 开 始 和 结束 值 相 同 。 对 于 同 种 类 型 的 资源 而 言 ， 可 
以 有 多 份 ， 例 如 说 菜 人 设备 占据 了 两 个 内 存 区 域 ， 则 可 以 定义 两 个 IORESOURCE_MEM 资 源 。 


对 resource 的 定义 也 通常 在 BSP 的 板 文 件 中 进行 ， 而 在 有 其 体 的 设备 驱动 中 通过 platform get resource () 
这 样 的 API 来 获取 ， 此 API 的 原型 为 : 


So resoubce *platlonun get. tesource (struct platrorm device * Unsigned int, 


unsigned int); 


例如 在 arch/arm/mach-at91/board-sam9261ek.c 板 文件 中 为 DM9000 网 卡 定 义 了 如 下 resouce: 


Static struct resource 
[O]. = 4 
oLar 
send 
.flags 


.Start 
.end 
.flags 


.flags 


dm9000 resource[] = 1 


AT91 CHIPSELECT 2, 
AT91 CHIPSELECT 2+ 3, 
IORESOURCE MEM 


AT91 CHIPSELECT 2+ 0x44, 
AT91 CHIPSELECT 2+ OxFF, 
IORESOURCE MEM 


IORESOURCE IRQ 
IORESOURCE IRQ LOWEDGE | IORESOURCE IRQ HIGHEDGE, 


在 DM9000 网 卡 的 驱动 中 则 是 通过 如 下 办 法 拿 到 这 3 份 资源 : 


ab-^addr fes 
ape-c0Sba Tes 
QOScIFO Teg 


platrorm get resource(pdev, IORESOURCE MEM, 0); 
paatrorm get resoUurce(pdev, ILORESOURCE MEM, 1)7 
platrorm ger resource (pdevy, IOBRBESOURCE IRG; 097 


X FIRQM zi. platform get resource O 还 有 一 个 进行 了 封 猴 的 变 体 platform get irq O ， 其 原型 
为 : 


IDE platform get xrpgisurucb plauform device *dev, unsigned: cnt num); 


它 实 际 上 调用 platform get resource (dev, IORESOURCE IRQ, num) ; ”. 


设备 除了 可 以 在 BSP 中 定义 资源 以 外 ， 还 可 以 附加 一 些 数据 信息 ， 因 为 对 设备 的 硬件 描述 除了 中 断 、 
内 存 等 标准 资源 以 外 ， 可 能 还 会 有 一 些 配置 信息 ， 而 这 些 配 置信 息 也 依赖 于 板 ， 不 适宜 直接 放置 在 设备 驱 
动 上 。 因 此 ，platform 也 提供 了 platform data 的 支持 ，platform data 的 形式 是 由 每 个 驱动 自 定 义 的 ， 如 对 于 
DM9000 网 卡 而 言 ，platform data 为 一 个 dm9000 plat data 结 构 体 ， 完 成 定义 后 ， 就 可 以 将 MAC 地 址 、 总 线 
宽度 、 板 上 有 无 EEPROM 信息 等 放 入 platform data 中 ， 如 代码 清单 12.9 所 示 。 


代码 清单 12.9” platform data 的 使 用 


Ieta QGSUDucbumo0DOD. plat dara dn99U0 platdava.— 4 

2 .flags - DM9000 PLATF 16BITONLY | DM9000 PLATF NO EEPROM, 
3}; 

4 

OSPRaqtlo SULCUCE IIquEOEm device <dm9000. devica = 4 


6 .name = "dm9000", 

J ES] = 0, 

8 Dum. resources- = ARRAY SIZE (amg000: resource), 
P SDOSOUrce = dmo9000-xesource, 
10 . dev = { 
IT platform data. = Sm O00 platdata;, 

12 } 

13} 


而 在 DM9000 了 网 卡 的 驱动 drivers/netethernet/davicom/dm9000.c 的 probe〈) rB, WAU FERRER) S 


platform data: 


strucct-uu90OD plat daba *pdata: = dev get platdatatepdevesdev)s 


其 中 ，pdev 为 platform device 的 指针 。 
由 以 上 分 析 可 知 ， 在 设备 驱动 中 引入 platform 的 概念 全 少 有 如 下 好 处 。 


1) 使 得 设备 被 挂 接 在 一 个 总 线 上 ， 符 合 Linux 2.6 以 后 内 核 的 设备 模型 。 其 结果 是 使 配套 的 sysfs 节 
Bi. Ve HU FERE ZJ RJ RE e 


2) 隔离 BSP 和 张 动 。 在 BSP 中 定义 platform 议 备 和 设备 使 用 的 资产、 设备 的 具体 配置 信息 ， 而 在 驱动 
中 ， 只 需要 通过 通用 API 去 获取 资源 和 数据 ， 做 到 了 板 相 关 代 人 码 和 驱动 代码 的 分 离 ， 使 得 驱动 具有 更 好 的 
可 扩展 性 和 跨 平 台 性 。 


3) 让 一 个 驱动 支持 多 个 设备 实例 。 璧 如 DM9000 的 驱动 只 有 一 份 ， 但 是 我 们 可 以 在 板 级 添加 多 份 


DM9000 的 platform _ device， 它 们 都 可 以 与 唯一 的 驱动 匹配 。 





Linux 3X 之 后 的 内 核 惠 ，DM9000 驱 动 实际 上 已 经 可 以 通过 设备 树 的 方法 被 枚 举 ， 可 以 参见 补丁 


net: dm9000: Allow instantiation using device tree《〈 内 核 commit 的 ID 是 0b8bflba) . 


index a2408c8..dd243al 100644 

--- a/drivers/net/ethernet/davicom/dm9000.c 

+++ b/drivers/net/ethernet/davicom/dm9000.c 

aa -29,6+29,8@@ 

#include <linux/spinlock.h> 

#include «linux/crc32.h» 

#include <linux/mii.h> 

+#include <linux/of.h> 

+#include <linux/of net.h> 

#include <linux/ethtool.h> 

#include «linux/dm9000.h» 

#include <linux/delay.h> 

ad -1351,6+1353,31@@ static const struct net device ops dm9000 netdev ops = { 
#endif 

); 

Stat srruct. da9000 plat date “om U0U. parse dETSCPUOCC. device *dev) 


+{ 
F 

+) 

a 

/* 

* Search DM9000board, allocate space and register it 

x 

ad -1366,6+1393,12@@ dm9000 probe(struct platform device *pdev) 
ine i9 

uoszrid Val; 

+ if (!pdata) { 

+ paata = dm9000 parse gt(&pdev-»dev); 

十 if (IS ERR(pdata)) 

十 return PIR ERR(pdate); 

y 

十 

/* Init network device */ 

ndev = alloc eStherdevisizeof(struct board inro))y 

if (!ndev) 


Ce -1676,11941709,2088 dm9000 dry remove(struct platform device *pdev) 
return O0; 


} 
+#ifdef CONFIG OF 


TSULHLLC CONSt struct Qf device Ld Om9000 OL matehes[] = 4 
十 t. „compatible = "davyicom,cmg000"; +}, 
+ L IS sentinel =y | 
tj; 
+MODULE DEVICE TABLE(of, dm9000 of matches); 
+#endif 
ji 
stalig Struct platrtorm driver xxuno9000 driver = 4 
„driver = { 
.name = "dm9000", 


.owner = THIS MODULE, 
.pm = &dm9000 drv pm ops, 
T Of match table = of match ptrí(dam9000 of matches), 


by 
probe = dm 9000 probe, 
.remove = dm9000 drv remove, 


改 为 设备 树 后 ， 在 板 上 添加 DM9000 网 卡 的 动作 就 变 成 了 简单 地 修改 dts 文 件 ， 如 


arch/arm/boot/dts/s3c6410-mini64 10.dts F BEA ix FEAR AY: 





srom-cs1818000000 { 

compatible = "simple-bus"; 

#address-cells = «1»; 

#Size-cells = «1»; 

reg = «0x180000000x8000000»; 

ranges; 

ethernet@18000000 { 
compatible = "davicom,dm9000"; 
reg = «0x180000000x20x180000040x2»; 
interrupt-parent = <&gpn>; 
interrupts = </ITRO TYPE DEVEL HIGH; 
davicom, no-eeprom; 


天 于 设备 树 情 况 下 张 动 与 设备 的 匹配 ， 以 及 张 动 如 何 获取 平台 属性 的 更 详细 细节 ， 将 在 后 续 草 节 介 


2H. 


12.3 ”设备 驱动 的 分 层 思 想 
12.3.1 设备 驱动 核心 层 和 例 化 


在 12.1 市 ， 我 们 已 经 从 感性 上 认识 了 Linux 驱 动 软件 分 层 的 意义。 其 实 ， 在 分 层 设 计 的 时 候 ，Linux 内 
核 大 量 使 用 了 和 面 同 对 象 的 设计 思想 。 


在 面 癌 对 象 的 程序 设计 中 ， 可 以 为 条 一 类 相似 的 事物 定义 一 个 基 类 ， 而 上 其 体 的 事物 可 以 继承 这 个 基 类 
中 的 轴 数 。 如 来 对 于 继承 的 这 个 事物 而 言 ， 作 成 员 函 数 的 实现 与 基 类 一 怪 ， 那 它 丈 可 以 且 接 继承 基 类 有 隙 
7i: 相反 ， 它 也 可 以 重 与 《Overriding) ， 对 父 关 的 函数 进行 重新 定义 。 契 于 类 中 的 方法 与 父 关 中 的 东方 
法 具有 相同 的 方法 名 、 返 回 尖 型 和 参数 表 ， 则 新 方法 将 禾 兰 原 有 的 方法 。 这 种 面 癌 对 象 上 " 多 态 ” 设 计 趾 宁 
极 大 地 提高 了 代码 的 可 重用 能 力 ， 生 对 现实 世界 中 事物 之 间 关 系 的 一 种 民 好 呈现 。 


Linux 内 梯 完 全 是 由 C 语 言 和 汇编 语 诗 写成 ， 但 是 却 频 壹 地 用 到 了 和 面 同 对 象 的 设计 思想 。 在 设备 驱动 方 
面 ， 往 往 为 同类 的 设备 设计 了 一 个 框 染 ， 而 框 染 中 的 核心 层 则 实现 了 壕 设备 退 用 的 一 些 功能 。 同 样 的 ， 如 
来 具体 的 设备 人 不想 使 用 核心 层 的 函数 ， 也 可 以 乍 写 。 淮 个 例子 : 


return Lype core funoa(xxx device ~ Pottom dev, param: type paranl; param! Lype param) 


{ 
LL (Dottom deve^runca) 
return bottom dev-^runcatparaml, paramz); 
/* 核心 层 通用 的 Eunca 代 码 */ 


fE EXhcore funca KMF, SMAKER funca O , WRES S, DiRT 
55, Al, Ae AIA. Ae, PD ER AY CAS AY AERE 2305 VAS CE HJ 
funca O 对 应 的 功能 ， 只 有 少数 特殊 设备 需要 重新 实现 fanca ©) 。 


return type core funca(xxx device * bottom dev, paraml type paraml, paraml type param2) 
{ 

/* 通 用 的 步骤 代码 A */ 

typea dev commonA(); 


/* 底层 操作 oOPS1 */ 

bottom dev-»funca ops1(); 
/* 通 用 的 步骤 代码 B * / 
typea dev commonB(); 


/* J&EfBMFops2 */ 

bottlom. dev-^tunea Ops< () + 
/x* 通 用 的 步骤 代码 C * / 
typea dev commonB(); 


/** 底层 操作 ops3*/ 
bottom dev--^fuüunca ops 


上 述 代 码 假 定 为 了 实现 fbnca《〈) , MIPIM, WIEME M, ARRAS TISA, JRE 


ops1、 通 用 代码 B、 底 层 ops2、 通 用 代 伍 C、 展 层 ops3” 这 几 步 ， 分 层 设 计 珊 来 的 明显 好 处 是 ， 对 于 通用 代 
人 码 A、B、C， 具 体 的 确 层 驱动 不 需要 再 实现 ， 而 仅仅 只 要 关心 其 压 层 的 操作 ops1、ops2、ops3 则 可 。 


图 12.5 明 确 有 反映 了 设备 驱动 的 核心 层 与 具体 设备 驱动 的 关系， 实际 上 ， 这 种 分 层 可 能 只 有 两 层 〈 见 图 
12.5a) ， 也 可 能 是 多 层 的 (图 12.5b) 。 


A 类 设备 的 核心 层 







A 类 设备 实例 1 A 类 设备 实例 2 A 类 设备 实例 3 


A 类 设备 的 核心 层 


A 类 设备 子 类 1 的 核心 层 A 类 设备 子 类 2 的 核心 层 





A 类 设备 子 类 1 的 实例 | A 类 设备 子 类 1 的 实例 2 A 类 设备 子 类 2 的 实例 1 


b) 


图 12.5” ”Linux 设 备 驱 动 的 分 层 


这 样 的 分 层 化 设计 在 Linux 的 input、RTC、MTD、LIC、SPI、tty、USB 等 诸多 类 型 设备 驱动 中 屡 见 不 
鲜 。 下 和 面 的 几 小 节 以 input、RTC、Framebuffer 等 为 例 先 进行 一 番 讲 解 ， 当 然 ， 后 续 的 草 刷 会 对 与 儿 个 大 的 
设备 类 型 对 应 的 驱动 层次 进行 更 详细 的 分 析 。 


12.3.2. ”输入 设备 驱动 


得 入 设备 〈 如 按键 、 键 盘 、 和 触摸 屏 、 鼠 标 等 ) 是 典型 的 字符 设备 ， 其 一 般 的 工作 机 理 是 底层 在 按键 、 
触摸 等 动作 发 送 时 产生 一 个 中 断 (或 驱动 通过 Timer 定 时 查询 ) ， 然 后 CPU 通过 SPI、FC 或 外 部 存储 器 总 
线 访 取 键 值 、 坐 标 等 数据 ， 并 将 它们 放 入 一 个 缓 神 区 ， 字 人 符 设备 驱动 管理 该 缓冲 区 ， 而 驱动 的 read ©) $e 
口 让 用 户 可 以 读 取 键 值 、 坐 标 等 数据 。 


显然 ， 在 这 些 工 作 中 ， 只 是 中 断 、 读 键 值 /坐标 值 是 与 设备 相关 的 ， 而 输入 事件 的 缓冲 区 管理 以 及 字 
从 设备 驱动 的 亿 e _ operations 接 口 则 对 输入 设备 是 通用 的 。 基 于 此 ， 内 核 说 计 了 输入 子 系统 ， 由 核心 层 处 理 
公共 的 工作 。Linux 内 核 输入 子 系统 的 框架 如 图 12.6 所 示 。 


虚拟 终端 





多 12.6” Linux 内核 输入 子 系统 的 框架 
输入 核心 提供 了 底层 输入 设备 驱动 程序 所 需 的 API[， 如 分 配 / 释 放 一 个 输入 设备 : 


Struct input dev *inpHut allocate device (void); 
VOLO 2upuL Iree devlicetstpucE Input dev ee = 


input allocate device €) 返回 的 是 1 个 input dev 的 结构 体 ， 此 结构 体 用 于 表征 1 个 输入 设备 。 
注册 /注销 输入 设备 用 的 接口 如 下 : 


int Must check input. register Gevice(strucl. 1npur dev ~); 
VOLO Input ulfeglster device(stpuct input dey ~); 


报 各 输入 事件 用 的 接口 如 下 : 


/* 报告 指定 type、Ccode 的 输入 事件 */ 

võid input -event(struct input dev *dev, unsigned nt type; unsigned antl Code; int value); 
/* 报告 键 值 */ 

void input report Kkeyístruct input dev *dev;, unsigned n: code, Int value; 

/* 报告 相对 坐标 */ 

VOLO 21Uupub report xel(struct input dev “dev; Unsigned Int code; INC value) ¢ 

/* 报告 绝对 坐标 */ 


void input report abs(struct input dev *dev, unsigned int code, int value); 
/* 报告 同步 事件 */ 
void input sync(struct input dev *dev); 


sr T PPS eT ASE, A A St INASUEZaTJoEdRXRN. IX PSR input _ event， 如 代码 清单 
12.10 所 示 。 


代码 清单 12.10 input event 结 构 体 


lstruct znpur event 1 


2 struct timeval time; 
3 . ULGlype; 

4 _; Ubkecode; 

9 四 本 ae = 

6}; 


drivers/input/keyboard/gpio_keys.c 基 于 input 架 构 实 现 了 一 个 通用 的 GPIO 按 键 驱 动 。 该 驱动 是 基于 
platform driver 染 构 的 ， 名 为 “gpio-keys”。 它 将 与 便 件 相关 的 信息 (如 使 用 的 GPIO0 写 ， 按 下 和 抬 起 时 的 电 
平等 ) 屏蔽 在 板 文件 platform _device 的 platform _ data 中， 因此 该 驱动 可 应 用 于 各 个 处 理 需 ， 有 具有 民 好 的 路 和 平 
台 性 。 人 代码 清单 12.11 列 出 了 该 驱动 的 probe ©) PAB. 


代码 清单 12.11 ”GPIO 按 键 驱 动 的 probe() 函数 


lSragtro Inc GPO Keys probe (strucl platform device *pdev) 


3 struct device *dev = &pdev->dev; 

4 const struct gpio keys placrorm data *pdata = dev get platdata(dev); 
9 SUPUCL gpio keys drudata *ddava; 

O obruo Input dev *18put; 

i Gre X S126; 

8 int i, error? 

9 int wakeup = 0; 


10 

11 if (!pdata) { 

12 pdata = gpio keys get devtree pdata (dev); 

Lo if (IS ERR(pdata)) 

14 return PIR ERBR(pOata):; 

Ly j 

16 

LI Size = SIZeocrt(sLtruct gpio keys devdata) F 

18 poata- npu CONS * SIZOOL(Strucb gpio Dutton data); 


l9 ddata = devm EkzabLloc(devy sige; GRP KERNEL); 
20 if (!ddata) { 


21 dev err (dev; “alleed cO mllocqte Ststeum")s 

Z2 return -ENOMEM; 

sd | 

24 

29- Lnpur = devm L0puL allocare device (dev); 

20 ae: qvloxnpubt) 4 

2a dev err(dev, "failed to allocate input deviceXin")s 
28 return -ENOMEM; 

29 ] 

30 


31 ddata->pdata = pdata; 
32 ddata->input = input; 
33 Murex rniyt(sddáta-sdrsable Lock); 


35 Platform set drvdata(pdev, ddata); 
36 Input Ser drydate(rmputy ddata); 


eT, 
38 input->name = pdata->name : pdev->name; 
39 input->phys = "gpio-keys/input0"; 


40 input->dev.parent = &pdev->dev; 
41 input->open = gpio keys open; 
42 input->close = gpio keys close; 


44 input->id.bustype = BUS HOST; 
45 input->id.vendor = 0x0001; 
Jo ldsgmput-rd.prodouct = 0x007 


47 input->id.version = 0x0100; 


49 /* Enable auto repeat feature of Linux input subsystem */ 
50 if (pdata->rep) 


51 -Seb PIG EV OREP; PICS CyD] 

52 

Oo Oe (L S 07 1 < pdadtdcecHbuttonss bast): 4 

54 CONS: SCtruct ORG keys Dutton “button = <pdata--buveons (1); 
55 Struct gpio Dutton data-^*bdacta = <ddata=-datalil; 

96 

97 error. = Opie keys setup key(pdevs. Input; .bdata, bulron)s 

wis Lt error) 

I9 return error; 

60 

61 if (button->wakeup) 

62 wakeup = 1; 

63. ] 

64 

Oo Error = Sysis create group(epuevesdevekoDjg, GUgpro keys acer Group); 
sis pe 

OT error = put TeGisuer Cevice (input); 

68 

69 } 


上 述 代码 的 第 25 行 分 配 了 1 个 输入 设备 ， 第 31~47 行 初始 化 了 该 Input_dev 的 一 些 属性 ， 第 58 行 注册 了 
这 个 输入 设备 。 第 53~63 行 则 初始 化 了 所 用 到 的 GPIO， 第 67 行 完成 了 这 个 输入 设备 的 注册 。 


在 注册 输入 设备 后 ， 底 层 输 入 设备 驱动 的 核心 工作 只 剩 下 在 按键 、 触 措 等 人 为 动作 发 生 时 报告 事件 。 
代码 清单 12.12 列 出 了 GPIO 按 键 中 断 发 生 时 的 事件 报告 代码 。 


代码 清单 12.12”GPIO 按 键 中 断 发 生 时 的 事件 报告 


ES 


2 Et opio Dutton daua. “ota = 09v 19; 

T Const Struct cgpro Keys Dutton “Dutton = Ddata- pü tOn 
人 

6 unsigned long flags; 
7 
8 


BUG: ON (LE we bdavca==1 754) 7 

9 
TO prn Lock rrqsave(esbdata- lock, flags) 
LI 
iA at i pdava=> key. pressed): 4 
13 if (bdata->button->wakeup) 
14 pm wakeup event (bdata->input->dev.parent, 0); 
19 
16 VIPUL OVON (LE EV Bi, Duttone code. Lya 
T7 Input Syncionput)r 
LS 
19 Lr. (Ibdata--ctimer debounce)- :| 
20 Input event(input,-EV KEY, buccon=>code;, . .0)7 
Ze input eSyncirnpub); 
A GOCO Out? 
23 } 
24 
29 bdata= Key pressed = Truc, 
26 } 
21 
20: LE (boata -timer debounce) 
29 mod timer(&bdata-»timer, 
30 Jud hres F msecs uo.pjrftrresibusta-su.rimer debounce)) 
SUM. 


o2 Spon unlock. srqrestored«bdata- lock, lags) 7 
33 return IRQ HANDLED; 
34) 


GPIO 按 键 驱 动 通过 input event () ~ input sync OO XIF MRAR dE PC HE S PE DAE ZEE. MU 
层 的 GPIO 按 键 驱 动 可 以 看 出 ， 访 驱动 中 没有 任何 fle _ operations 的 动作 ， 也 没有 各 种 IO 模型 ， 注 册 进 入 系 
统 也 用 的 是 input register device () 这 样 的 与 input 相 关 的 API。 这 是 由 于 与 Linux VFS 接 口 的 这 一 部 分 代码 


全 部 都 在 drivers/input/evdev.c 中 实现 了 ， 代 码 清 时 12.13 摘 取 了 部 分 关键 代 人 。 


代码 清单 12.13 


tota rrio Solze i evdev Tread(eurucry, Eee 


char 


input 核 心 层 的 他 e operations 和 read €) KZ 


全 


2 SEA 

94 

4 CrO evdev ocbLrxence "olrenu e ba le= pri vars. data, 

5 struct evdev *evdev = client-»evdev; 

o ucrucb Ino even: event; 

7 Size vo read = p7 

8 ant error; 

9 

IO Xf (County: I US count < Input event “size () ) 

LR return -—EINVAI 

E2 

Lo FOr AFJ 4 

14 if (levdev-»exist || client-»revoked) 

T5 return -—ENODEV; 

16 

17 1h. COLL CKet Meo. Ee Clrentes>baLlL % 

18 (file-»f flags & O0 NONBLOCK). 

19 return -EAGAIN; 
20 
Zl T 
22 * count == 01S special - no IO is done but we check 
23 x for error conditions (see above). 
24 * / 
ZO if (count == 0) 
26 break; 
21 
28 While (read cr Input Svent Size) <= COUNT && 
29 evdev- fetch. next event (client, Gevene)) d 
30 
24. ix^ (xnput eveut uo user(DbuLfer k read, &event)) 
37 return —BRFAUDLT; 
35 
34 Lead. = Xmput event S761) 4 
oo } 
36 
Sal if (read) 
39 break; 
39 
40 pL A CETL Llags & OUNONBEOCK)). 4 
41 error = Walt, vent anterrupul ble (evdev= wait, 
42 clrentespacket. head t="Clieni=>rail 
43 levdev-»exist || client->revoked) ; 
44 if (error) 
45 Eel Error) 
46 } 
47 } 
48 
49 return read; 
50 } 
S 


DootdLioc CONSE cSLEUGE Bile Operations: evdev Tops 


53 .owner = THIS. MODULE; 
54 .read = SvVGev read; 
OO KNEES = evdev write; 
S o wood — evdev poll, 
57] .open — evdev open, 
Jo #0 lease = evde relego; 
03. x BtuLOUDKed OCU evcev. OCC 


60#ifdef CONFIG COMPAT 


Ol compat 1OCU= evdey Joctl compst, 
62#endif 

63 .fasync = GVgev rasyuc, 

64 .flush = "YOY T Lusi; 

65 .llseek —nho- IIsesk, 

66]; 


上 述 代码 中 的 17~19 行 在 检查 出 是 非 阻 
1E NARFE Y BREWER. PELARE, H 
有 间接 唤醒 这 个 等 每 队列 evdev->wait 的 功能 ， 


FE 


{ 


my VY, 


Wiha, Bi 


X 。 


SE gpi 


R ANI oU NS S BeBe XJ BSE LE 


而 第 29 行 和 第 41~43 行 的 代 
o keys3kay Œ m val H MJinput event ©) ~ input sync () 


返回 EAGAIN 错 误 ， 


12.3.3 RICKS Ks 


RTC (SEIT) 借助 电池 供电 ， 在 系统 掉 电 的 情况 下 依然 可 以 正 第 计时 。 它 通常 还 具有 产生 周期 性 中 
断 以 及 闹钟 CAlarm) 中断 的 能 力 ， 是 一 种 典型 的 字符 设备 。 作 为 一 种 字符 设备 驱动 ，RTC 需 要 有 
file operations 中 接口 函数 的 实现 ， 如 open O ~ release () ~ read ©) 、poll ©) ~ ioctl () 等 ， 而 典型 的 
IOCTL 包 括 RTC SET TIME, RTC ALM READ, RTC ALM SET. RTC IRQP SET. RTC IRQP READ 
等 ， 这 些 对 于 所 有 的 RTC 是 通用 的 ， 只 有 底层 的 具体 实现 是 与 设备 相关 的 。 


因此 ，drivers/rtc/rtc-dev.c 实 现 了 RTC 驱 动 通 用 的 字符 设备 驱动 层 ， 它 实现 了 了 file opearations 的 成 员 函 数 
以 及 一 些 通 用 的 关于 RTC 的 控制 代码 ， 并 同 拘 层 导 出 rtc device register O . rtc device unregister () 以 注 
册 和 注销 RIC; 叶 出 rtc_class_ops 结 构 体 以 手 述 故 层 的 RTC 便 件 操 作 。 这 个 RTC 通 用 层 实 现 的 结果 是 ， 瓜 
层 的 RTC 驱 动 不 再 需要 关心 RTC 作 为 字符 设备 驱动 的 具体 实现 ， 也 无 震 天 心 一 些 通 用 的 RTC 控 制 敢 辑 ， 图 
12.7 表 明了 这 种 天 系 。 


file operations 





rtc class ops 
RTC 驱动 A RTC 驱动 B 





RTC 驱动 C 


图 12.7 Linux RTC 设 备 驱动 的 分 层 





drivers/rtc/rtc-s3c.c33 f S3C64108]RTCURZJ, EHEMIRTCUA& A Erte class ops 的 代码 如 代码 清单 


12.14 BT» 
代码 清单 12.14 S3C6410RTC 了 驱动 的 rte_class_ops 实 例 与 RTC 注 册 


EEC Const SCEUCE tec Class Ops. 2950 DLOODS = 4 
2 SoC ptc ge C Ine; 

3. Set LIne S00 rtc Sebtimes, 

4 stead alarm poc Etc geralarmy 

J Sec alarm SoC PUG SOeLalarm, 

6 
7 
8 


JpEOC Boc PLC Proc, 
Alarm irg enable = Soc ice. Sera, 
); 
9 

LDSDHqEIOC Int S2€ rbo probe (struct platform device *paoev) 
1e 
d s 
13 TLO = devm rtc device register(spdev-^dev, "S3SO", te OC EUtCODS, 
14 THIS MODULE); 


drivers/rtc/rtc-dev.c 以 及 其 调用 的 drivers/rtc/interface.c 等 RTC 核 心 层 相当 于 把 他 e operations H3 
open ©) ~ release O 、 斌 取 和 设置 时 间 等 都 间接 “转发 ”给 了 拘 层 的 实例 ， 代 人 码 清单 12.15 摘 取 了 部 分 RTC 
核心 层 调 用 具体 懈 层 驱动 callback 的 过 程 。 


代码 清单 12.1$ _RTIC 核 心 层 “转发 ”到 搬 层 RTC 驱 动 callback 


Lotario InG TIO uev OPen a uat node ”tno SLIC dll Se) 
ZA 

3 

4 err = ops->open ops->open(rtc->dev.parent) : 0; 

elas 

6 } 

7 

ootate SNe eC read. Time. (surucl EC: CS6viCe. “ree, OC UCE Tue time Lm) 
2d 
10 int err; 
LE AE eee SOR Ss) 


17 err = -ENODEV; 

to elge Ti -ELECO OPS n r aa CENE) 
14 err = —EINVAL; 

ibo vi ge 

1:5: Tecur ears 

1^3 

18 


lo923nt Tie cedo tim Erne ILC device: "pPbOR; PLU UCG TEC tine ^) 
201 
21 int err; 


22 

29 CL =m e LOCK ICO p I Lener EG=>008 lock); 
24 if (err) 

20 POUUENM SOT. 

20 

ZI e rue. DUO ead: LIO. UB 


25 mutex unlook(&srutoe--ops LOCEN? 
Zo: Feta err 

30} 

31. 

SZ INE. EEC. oer CUM Lor eC. device EEO GEA fee. Gime ^L) 
334d 

34 

2D 

DO aT (I$ Ops) 

3 err = -ENODEV; 

90 Clee UI ZIUOSCODE-SSet Ime) 


39 err PECORA Ops s-seb Lime (rl C= cde vVJparenby. com) 
A = aged Ss 

41 return err; 

42} 

43 

Statre Jong. ruc dev :xoctlis5ruocb file rite, 
45 unsigned int cmd, unsigned long arg) 

4o{ 

47 

48 

49 Case RIO URD TIME 

50 mutex unlock (¢ruc=Sops: JOCK); 

e 

52 err = Teo read LimMe (ete Em) 

Do IT (err < 0) 

54 few cn err, 

sre 

56 IL COPY to user(uarOg;.etm.-ssrzeotttm)») 
D err = -EFAULT; 

58 rperurm err; 

59 

60: case RIC SEI TIME: 

61 mutex unlock (értc-2ops: tock); 

62 

63 it (Copy Prom useritetm, Uarg, SrczeofrTtum)) 
64 ein -BRAULT; 

65 

66 recur n- VEC Set TIMET Ce de 

67 


68) 


12.3.4 Framebuffer IKZ} 


Framebuffer OMF) 是 Linux 系 统 为 显示 设备 所 供 的 一 个 接口 ， 它 将 显示 缓冲 区 抽象 ， 屏 菩 图 像 便 
件 的 压 屋 大 寞 ， 人 允许 上 层 应 用 程序 在 图 形 模 式 下 直接 对 显示 缕 冲 区 进行 谈 写 操作 。 对 于 巾 绥 冲 设 备 而 言 ， 
只 要 在 显示 绥 冲 区 中 与 显示 点 对 应 的 区 域内 写 入 闫 色 值 ， 对 应 的 磊 色 会 日 动 在 屏 贤 上 显示 。 


图 12.8 所 示 为 Linux 眉 缓冲 设备 驱动 的 主要 结构 ， 归 缓 冲 设 备 提 供给 用 户 空 间 的 他 e_operations 结 构 体 
Fidrivers/video/fbdev/core/fbmem.cH" HJfile operations 提 供 ， 而 特定 帆 绥 神 设 备 fb info 结 构 体 的 注册、 注销 
以 及 其 中 成 员 的 维护 ， 尤 其 是 tb_ops 中 成 员 函 数 的 实现 则 由 对 应 的 xxxfb.c 文 件 实现 ，fb_ops 中 的 成 员 函 数 


最 终 会 操作 LCD 控 制 其 硬件 寄存 器 。 








: m 注册 注销 l 、 
register framebuffer() unregister framebuffer () 


fb check. var() fb set par() 





xxxfb.c 





内 核 空间 


硬件 LCD 控制 器 


图 12.8 ”Linux 巾 绥 冲 设备 驱动 的 程序 结构 





多 数 显 存 的 操作 方法 都 是 规 沁 的 ， 可 以 按照 像 系 点 格式 的 要 求 顺序 写 帧 缓冲 区 。 但 是 有 少量 LCD 的 显 
存 写法 可 能 比较 特殊 ， 这 时 候 ， 在 核心 层 drivers/video/fbdewcore/fbmem.c 实 现 的 也 write ©) 中 ， 实 际 上 可 
以 给 确 层 提供 一 个 重 写 目 己 的 机 会 ， 如 代码 清单 12.16 所 示 。 


代码 清单 12.16 LCD 的 framebuffer write () Ki% 


LOSDALIC SEX T 
ZLD WEILeC(QStrucut file 5f1196, Conse Char . uger *bur, Size L COUN; Lott t ^Dpos) 


4 unsigned long p = *ppos; 

O9 Seroct Ib inio "INEO = EXE SD IDnrotbobe 
G ue^burrer, “sro? 

7 US... romem “dsr; 

8 


int. Q, «ont = 0, err = Us 

2 unsigned long total 81267 
10 
LL ait (rine |] izufo-screen base) 
Lz return -ENODEV; 
1: 
14 if (info->state !- FBINFO STATE RUNNING) 
15 return —-EPERM; 
16 
Lf ar (100s bOps=> rb WELLE) 
18 return 2nto--rDbops- fb Vriten o; bul; Count, ppos) 7 
19 
20 ‘COtal. Size = 1intfo-^2screen 61767 
21 
22 wr (bo9ual Size == 0) 
23 LOLAL Size = GDEO- 2 eonen- Len; 


Zo doe (peo Dota 729) 


26 return -EFBIG; 

2T 

ZO. (OOUHE c" (Obed 12e) 4 

29 err — -EFBIG; 

30 count e CoO size, 

Sub. 3 

32 

239 LE “(Count FB > EOte size): 4q 

34 if (lerr) 

39 err = -ENOSPC; 

36 

37 Count = Oval Size = py 

3e. t0 

39 

40°" putter = kmalloct(t(oount > PAGE SIAE) PAGE SIZE +1 “Count; 
41 GFP KERNEL) > 

42 if (!buffer) 

43 return -ENOMEM; 

44 

Ao dst — (ue omen *) (nfo Screen base + p) 
46 

AT XQ q2DnloO-LDODS-c-^rD sync) 

48 I Ot OO sO. SYN (Lt) 
49 

50 while (count) { 

5d C= (count > PAGE SIZE) PAGE SLZE Count; 
5 sro = Duffer; 

59 

54 Ip (COD BPomgseroSros JE EE Cu 
59 err = -EFAULT; 

56 break; 

Sul } 

OU 

59 rb memopy LORDQOSU- SEO. iC); 
60 dst += c; 

61 sro meg 

62 "DOS “=. qu 

63 buf += c; 

64 Gn seus 

65 count == xc 

66 |] 

67 

68 kfree (buffer); 

69 

70 return (cnt) Ond 4 erry 

71} 


"R17-18112& — 1 To: IK EELCDAH RA KM E CRETA RAA, WRA, HRWIKI; WR 
UH. HP EREE EF SIAME SER ALS AF 9K LCD 


12.3.5 终端 设备 驱动 


在 Linux 系 统 中 ， 终 新 是 一 种 字符 型 设备 ， 它 有 多 种 类 型 ， 通 第 使 用 tty (Teletype) 来 简称 各 种 类 型 的 
终 曾 设备 。 对 于 骸 入 式 系 统 而 言 ， 最 普 表 采用 的 是 UART (Universal Asynchronous Receiver/Transmitter) FB 
行 端 口 ， 日 常生 活 中 简称 串口 。 


Linux 内 核 中 tty 的 层次 结构 如 图 12.9 所 示 ， 它 包含 tty 核 心 tty io.c、tty 线 路 规程 n ttyc〈 实 现 N_TTY 线 路 
规程 》 和 tty 驱 动 实例 xxx_tty.c，tty 线 路 规程 的 工作 是 以 特殊 的 方式 格式 化 从 一 个 用 户 或 者 便 件 收 到 的 数 
据 ， 这 种 格 陈 化 前 第 采用 一 个 协议 转换 的 形式 。 


tty io.c 本 喘 是 一 个 标准 的 字符 设备 张 动 ， 它 对 上 有 字符 设备 的 职责 ， 实 现 file_ operations 成 员 函 数 。 但 
AEttyTA aM ROME M f'tty driver] Z8 4, ic ttyv e HS EA TE eM f 3R76tty driverZi T4 s H HY 
成 员 ， 实 现 其 中 的 tty_ operations 的 成 员 函 数 ， 而 不 再 是 去 实现 fe operations 这 一 级 的 工作 。tty driverZi f 
体 和 tty_operations 的 定义 分 别 如 代码 清单 12.17 和 12.18 所 示 。 


fs/char dev.c 


注册 字符 设备 
struct file operations 












tty 10.C 








tty register driver() 
struct tty driver 


| XXX tty.c | 


O0000 
O000 


412.9 Linux 内 核 中 tty 的 层次 结构 


tty register Idisc() 
struct tty disc 


n tty.c 


代码 清单 12.17 tty driver 结 构 体 


lorro- tty driver 4 


2 int magic; /* Magic number for this structure */ 
3 struct kref kref; /* Reference management */ 
4 struct Cdev *Ccdevs; 
E struct module *owner; 
6 const char *driver name; 
/ COIISE Char *name; 
8 male name base; /* offset of printed name */ 
9 int major; /* major device number */ 
dip int minor Scare, /* start of minor device number */ 
11 unsigned int num; /* number of devices allocated */ 
12 short type; |t Lype of LEY driver */ 
13 short subtype; /*® gubtypè -orf tty driver ~ 
14 struct KLermios Inir Lermios; /* Initial termios ~/ 
15 unsigned long flags; /* tty driver flags */ 
LG struct proc dir entry *proc entry; |* proc fs entry */ 
d Struct tly driver *othér; /* Only used for the PTY driver */ 
18 
19 is 
20 * Pointer to the tty data structures 
21 A 
2 SLeEwCt LUCY SLruct “try 
2 SUrUCE LLY porc ** ports; 
24 struct ktermios **termios; 
25 VOLO. “Oriver orale; 
26 
27 J> 
28 * Driver methods 
29 a 
30 


FL Const SULUCy LCY Operations Tops} 


92 


Cree ee 


代码 清单 12.18 


Serur drot- Mead ty drryvers, 


tty operations 结 构 体 


Lgtruct Thy operations 


D Ser UOT “ey Ig Wu Lookup) (EU UlyCriver Or ve 

3 struct .THO inode, imt dx); 
站 
5 
G- T (Open) (Orr rut Tey Strues * Ley... Slruce tile = wills 

VOLG (TODOS) (O Truet Tey tne * “buy, struc’ tile ERLID) 

GO. VOud d *SDUCgdOWn) (etreucCt TEY Sere FELY)? 

9 MOL, uvclesnmup)dscruot tly  Seruce. "CDU 

LO Snc 人 

t1 Const Unsigned char buf; int count) > 

12. Int (人 
二 

14 int EN 

Lo: pm mendaro nm DULES (serues Ly CrO DD; 

LO ine (COOOL AS ETUE: TE S EIOS 

Ly unsigned int cmd, unsigned long arg); 

ie. Long: (Compan, TOCUL (Strücuc. tty Strucb Cty; 

1 unsigned int cmd, unsigned long arg); 
ZU MOL. ‘(Ser cLermros)tsStruogsk ey SDPuooó LV. PLECE RUOSCHmros? Gio. 
2L VOLE ATCT OCELE A Ur USE thy Sree ™ ThY,.> 
Z2 NOLO, TA Unen OTE C) (SCUO EY St q -CEY 
2 
和 
2 
RE 
Re 
2 
ZE 
Sor (send: xchar) (Serger wty SLEG t ty, Char ica); 
Si Ak: (ELOCMNMGSt (SLPUOB DEY struct SEELY)? 
32» nb XDOPROCUSet) T9 65 ENGL uy SUIueb. Ley, 
33 unsigned int set, unsigned int clear); 
人 
人 
站 
37 struct Ser tel rocounver OT UCE AERECO, 


38rifdef CONFIG CONSOLE POLL 


29 Ut. POLL TALLIA Cruet xy driver TOFEL Oir unu Janey Char TOP LONS) 
a0: ane POLL Get Char) (Struc tey- driver “driver, eme Jane) 7 

AL wocd (*5poll put cheristsuct tly Oriver “driveri; nt bine, Ghar el); 
424dendif 


A9 (CONS SULUCL TELS: cOperbsetronme “proc Ops; 
Ad 


如 图 12.10 所 示 ，tty 设 备 发 送 数 据 的 流程 为 : tty 核 心 从 一 个 用 户 获 取 将 要 发 送 给 一 个 tty 设 备 的 数据 ， 
tty 核 心 将 数据 传递 给 tty 线 路 规程 驱动 ， 接 看 数据 侦 传递 到 tty 驱 动 ，tty 驱 动 将 数据 转换 为 可 以 友 壕 给 便 件 的 
格式 。 接 收 数 据 的 流程 为 :从 tty 人 硬件 接收 到 的 数据 回 上 交 给 tty 驱 动 ， 接 着 进入 tty 线 路 规程 驱动 ， 再 进入 tty 
Roly, FEI BETS AAPA RR. 


HEN 
write() read ) 
\ \ 


\ 
A 


\ 
ay 





tty write() tty read() 


线路 规程 Y | 
驱动 Idisc.write() 





Idisc.read() 


tty 缓 冲 区 | Idisc.receive buf() 
EN 





ty 驱动 = 


driver.write( ) 


tty flip buffer push() 


flip buffer T 


= 





-— 数据 流 “一 一， 函数 调用 


图 12.10 tty 设 备 发 送 、 接 收 数据 流 的 流程 


代码 清单 12.18 中 第 10 行 的 tty_ driver 操作 集 tty operations 的 成 员 函 数 write O 函数 接收 3 个 参数 : 
tty struct、 发 运 数 据 指 针 及 要 发 计 的 字 节 数 。 访 也 数 是 被 fle_operations 的 write〈) 成 员 函 数 间 接触 友 调 用 
的 。 从 接收 角度 看 ，tty 驱 动 一 般 收 到 字符 后 会 通过 tty flip buffer push O 将 接收 缓冲 区 推 到 线路 规程 。 


尽管 一 个 特定 的 底层 UART 设 备 驱 动 完全 可 以 遵循 上 述 tty driver 的 方法 来 设计 ， 即 定义 tty driver 并 实 
现 tty_operations 中 的 成 员 函 数 ， 但 是 鉴于 串口 之 间 的 共性 ，Linux 考 碟 在 文件 drivers/ttyserial/serial _ core.c 中 
实现 了 UART 设 备 的 通用 tty 驱 动 层 〈 我 们 可 以 称 其 为 串口 核心 技 ) 。 这 样 ，UART 驱 动 的 主要 任务 束 进 一 
步 演 变 成 了 实现 serial-core.c 中 定义 的 一 组 uart xxx 接口 而 不 是 tty xxx 接 口 ， 如 图 12.11 所 示 。 因 此 ， 按 照 面 
TARA AE, By RU Atty driver 是 字符 设备 的 汉化 、serial-core 是 tty driver 的 泛 化 ， 而 具体 的 串口 驱动 叉 


是 Serial-core 的 泛 化 。 





fs/char. dev.c <> 


注册 字符 设备 4 


struct file operations 


tty_10.C 
tty registgr driver () \ | ^ tty_register_Idisc () 
struct tty_driver | / struct tty. disc 
/ | / 
serial_core.c/ | / nitty.c 
/ \ f j 


f uart. register. driver () 
/ struct uart ops 





f 
xxx_uart.c / 


i 


图 12.11 串口 核心 层 


串口 核心 层 又 定义 了 新 的 uart_driver 结 构 体 和 其 操作 集 uart ops. — T JE BJUARTZB ri e G1) E A 


过 uart register driver © 注册 一 个 uart driver 而 不 是 tty driver， 代 人 码 清单 12.19 给 出 了 uart driver 的 定义 。 


代码 清单 12.19 uart driver 结构 体 


ltr Uart Craver 4 
2 struct module xowner; 
3 const char ^drriver name; 


4 Const Ne *dev name; 

5 int major; 

6 ENE MINOT? 

7 int In 

8 struct console “Cons; 

9 
10 j^ 
NU * these are private; the low level driver should not 
12 * touch these; they should be initialised to NULL 
13 A 
L4 SLIUGL Uart stave “Slate, 
TO Cruce Ley OTLET “ty Cie EIS; 
16}; 


uart_driver 结 构 体 在 本 质 上 是 派生 上 自 uart_driver 结 构 体 ， 因 此 ， 它 的 第 15 行 也 包含 了 一 个 tty_driver 结 构 
体 成 员 。tty_operations 在 UART 这 个 层面 上 也 被 进一步 泛 化 为 了 uart ops， 其 定义 如 代码 清单 12.20 所 示 。 


代码 清单 12.20 uart ops 结 构 体 


roto URP ODS- f 


2 unsigned int (“tx empty) (SULUCE. Uart DOrt ©)? 
3S VOLXd ("SOL motrl)(sLruceck uat portu ^. -unscgued Int metri); 
4 unsigned int ("oet NHOUCII)CSUEUOCL Uart Port 7); 
B. yolg (SCOP CO (Cruet Vart ‘pore. "vy. 
6 void (State. EX/ Ware Dore. A7 
7 void (C EDTOLUIe)(SLtruct Hort Dort "yx 
G CADO (^unLhroUpDle)TsSb5uecc Ua tl port. ) 7 
9 void (* send xchar) (struct uart porc 7y Char ch; 
10 void ("STOD x) (trvuet uari pore *) 7 
le ABO (“Tenable ms) (Cruce Uart port *) 7 
LZ. oOLld break :Clly (Seruce Uart pobre 7 TAL Qu 
l3. int ("Starbtup)Tstrfucb-uarfo porc Wy 
14 void (Cohttoowl)qstruegt Wark pose T7 
15: vord (~ Pius butter) (Sl rice: ert "port ST) 
16 void (sol USrtm1 Os) TICE E Mare post mp OCL ÜC KEermos “new, 
LL. struct .ktermros *old); 
19 vord (^set LAICI Croce: Wart. pork Ty SDIUOL ktermos. T7 
19 void (FPS CEUC Uart port 5, unsrogned TiL state 
20 unsigned int oldstate); 
Zl 
22. CONSE Char aC EV Oe) (Secu Uart POLC 5) 
23 
24 void (^relodse porbitetrdoct-udbt pork. ^» 
20 
26 int (^reqguesc POC) OCOC dSrcport 2 
ZW OVO. (5conENg DOr) CrO Tart pore. Fy: DIS 
28 Inet (5 verlrv por j4SstLuci uart Ore. ty ig ge Seria suruct: 5) 
29 int MIOCENO Cruet USIL post * unslgned gt, uünsxgned Long); 


30#ifdef CONFIG CONSOLE POLL 

Sale gru (“POLL mit) (Cnct dert pork “J7 

32 MOI (COOL puu-ocuer)estraocb uas porc ty 
Bion tie (^poll-gec char) (Steuer Ue por. *).7 
344endif 

35}; 


unsigned char); 


由 于 drivers/tty/serial/serial core.c 是 一 个 tty driver， 因 此 在 serial core.c 中 ， 存 在 一 个 tty_ operations 的 实 
例 ， 这 个 实例 的 成 员 函 数 会 进一步 调用 struct uart ops 的 成 员 函 数 ， 这 样 束 把 他 e operations 里 的 成 员 函 数 、 
tty operations Hy) EX, v3 P A Huart ops 的 成 员 函 数 串 起 来 了 。 


12.3.6 misc £& Jl zjJ 


由 于 Linux 张 动 倾 癌 于 分 层 设 计 ， 所 以 各 个 有 具体 的 设备 都 可 以 找到 和 它 归属 的 类 型 ， 从 而 套 到 它 相 应 的 
染 构 里 面 去 ， 并 且 只 需要 实现 最 确 层 的 那 一 部 分 。 但 是 ， 也 有 部 分 类 似 globalmem、globalfifo 的 字符 设 
备 ， 人 确实 不 知道 它 属 于 什么 类 型 ， 我 们 一 般 推 荐 大 家 采用 miscdevice 杠 架 结 构 。miscdevice 本 质 上 也 是 字符 
设备 ， 只 是 在 miscdevice 核 心 层 的 misce_init〈() 函数 中 ， 通 过 register_chrdev (MISC MAJOR, "misc", 
&misc fops) 注册 了 字符 设备 ， 而 具体 miscdevice 实 例 调 用 misc register O 的 时 候 又 日 动 完 成 了 


device create () ~ RAIRE SNE o 


miscdevicel] 3: 1x 5 7e EGE HY, MISC MAJOR 定义 为 10， 在 Linux 内 核 中 ， 大 概 可 以 找到 200 多 处 使 
用 miscdevice 杠 染 结构 的 驱动 。 


miscdevice 结 构 体 的 定义 如 代码 清单 12.21 所 示 ， 在 它 的 第 4 行 ， 指 癌 了 一 个 fle operations 的 结构 体 。 
miscdevice 结 构 体 内 file operations 中 的 成 员 函 数 实际 上 是 由 drivers/char/misc.c 中 misc 驱 动 核心 层 的 misc fops 
成 员 函 数 间 接 调 用 的 ， 比 如 misc_ open O 就 会 间接 调用 底层 注册 的 miscdevice 的 fops->open。 


代码 清单 12.21 miscdevice 结 构 体 


lstruct miscdevice | 

int Minor? 

const char *name; 

Const EU Elle Operations “Lops; 
Struct. dust. head Lisl; 

struct device *parent; 

Struct device. ^Lthis device; 

const char *nodename; 

umode t mode; 


OW OoONAAD OB CO NWN 


上 一 
一 一 
BE 


如 果 上 述 代 码 第 2 行 的 minor 为 MISC DYNAMIC MINOR，miscdevice 核 心 层 会 自动 找 一 个 空闲 的 次 设 


备 写 ， 人 否则 用 minor 指 定 的 次 设备 写 。 第 3 行 的 name 是 设备 的 名 称 。 
miscdevice 张 动 的 注册 和 注销 分 别 用 下 面 两 个 API: 


int misc register(struct miscdevazce * mise); 
Ine. Misc deregrster(sobLruct Miscdevice "misc 


此 miscdevice 驱 动 的 一 般 结 构 形 如 : 


StaLioc CONSE Struct Tile ODeraLtlons xx. Tops = 1d 
Jünlocked LOCUL = Axx. 100C} 
. mmap = xxx mmap, 


); 

Static SCtEUCLD Jmiscdevice xxx dev = 1 
.minor = MISC DYNAMIC MINOR, 
.name "apxc s, 
LODS &XxXx fops 


} . 


Static int. Enrt xxx Toc (void) 


pe EN 
return misc regzster(sexxx dev); 


在 调用 misc register (&xxx dev) Bj, ZRA ARS H ay device create () ， 而 device create () 
会 以 xxx dev 作 为 drvdata 参 数 。 其 次 ， 在 miscdevice 核 心 层 misce open O 函数 的 帮助 下 ， 在 file operations 的 
AM bt PRIA, xxx _ dev 会 目 动 成 为 fle 的 private data (misc open 会 完成 fle->private _ data 的 赋值 操作 ) 。 


如 末 我 们 用 面 问 对 象 的 封 闻 思想 把 一 个 设备 的 属性 、 目 旋 锁 、 互 斥 体 、 等 竺 队列 、miscdevice 等 封 净 
在 一 个 结构 体 里 面 : 


SULUCL XXX dev 1 
unsigned int version; 
unsigned int size; 
cspinlock t. Lock; 


struct miscdevice miscdev; 


在 file operations] EV, i EZ rp, Win Aw container of O 和 file->private data 反 推出 xxx_ dev 的 实例 。 


ee 


{ 
Se 
SULIUCL xxx dev, miscdev); 


下 面 我 们 把 globalfifo 驱 动 改 造成 基于 platform driver 且 采用 miscdevice 框 架 的 结构 体 。 首 先 这 个 新 的 驱 
动 杰 成 了 要 通过 platform _ driver 的 probe〈) 函数 来 初 巡 化， 其 炊 不 再 直接 及 用 register chrdev () 、 
cdev add O 之 美的 原始 API， 而 采用 miscdevice 的 注册 方法 。 人 代码 清单 12.22 列 出 了 新 的 globalfifo 驱 动 相 对 
于 第 9 章 globalfifo 驱 动 变 化 的 部 分 。 


代码 清单 12.22 ”新 的 globalfifo 驱 动 相对 于 第 9 草 globalfifo 驱 动 变 化 的 部 分 


LSErucboobobalrtrrto dev. a 


2 

3 struct miscdevice miscdev; 

4j; 

S 
和 
71 

8 scrucc Globaliirro dey ^dev = container of(CIlibp--prrvate data; 
9 curuct olobalLiro dev, miscdev)s 
10 
EIJ 
L2 
L9Ssbatlo. bong Clobalrito TOGLB(SLPUOCE tile. TLLID, HUSLIgneo ink sme 
14 unsigned long arg) 

1o 

T6 scruoct gLobaebbrro dey dev -— container or private data, 
Ty Struct olobalbtrto dev, mrscdev)s 

18 

L9 
20 
ZloudLre-unesgnedc Lae Glopa riro polie Crac fale “Lilo, POLL table: Ww wart) 
1 
29 suruco Global Iio- dev “dey = CONTAINS -O1-( fi lo=>privalre Gata, 
24 suructogloDelLito GeV -MiScdey).; 
25 


Z y 


Zopa IO SoLlze © globali reo: regado CIUC tile rile har der *"DULl, 
2 Size Lo COunt, LOr uu BEDS) 

oUt 

4 Struct Globalt: dey: 09V container orPTirqclp-cprrvateodate 
32 SULUCE. GLODALO Sev. MICAS]? 

S 

34} 

DS 

SOStabie: SOIZe Global Taro wEeiee(Geruct “ike Stil, conse Char ..user. “Duty 
Sd S129 5. County. OLE 5CBPOS) 

301 

39 Surucv OL to dev dev = Container: OIL ILpe private data, 
40 Struct oOlobalflro. dev, miseédev); 

41 

42} 

43 

4Istatto rnt globalrtrro probe(struct platform device *pdey) 
45 { 

46 SUruce: OlLobaltatroicgey. Gly 

47 int ret; 

48 

49 ol = devi kaallooc(tepdevesdev, S21200L(^gl), GEP KERNELJ; 
SD if (!gl) 

oL return -ENOMEM; 

a2 gl->miscdev.minor = MISC DYNAMIC MINOR; 

o gl->miscdev.name = "globalfifo"; 

54 gl-*mrscdev.rope9 = Ssglobalriro Tops; 

S 

56 Nütex snibttsegl-omutex 

5 init waitqueue head(&gl->r wait); 

58 init waitqueue head(&gl-»w wait); 

59 pratform set drvdabtaipoev, gl); 

60 

61 rel. = Mise reogisterisgl- mriscdev); 

62 if (ret < Q) 

Ge goto err 

64 NEU 

65 return 0; 

66err: 

67 return ret; 

68 } 

69 

TÜSLERLIC En GGL Oba LELEO renove (S rut platborm device, "vpoev) 
71{ 

T2 ctruct-wglobaltlito dey *9l = Placi orm get drvdavtatpdev). 
Ta Misc deregrister(sgl-omiscdev); 

74 return 0; 

15) 

76 

JIo ae -SCLUCE Placrorm.criver GODAL ITO- driver 33 

T8 .driver = { 

ER .name = "globalfifo", 

80 .owner = THIS MODULE, 

SA by 

82 prope c Globall rio probe; 

83 «remove = -GlobalT i ©. remove, 

84}; 


oomouule platform usriver(globelitrro driver) 


在 上 述 代码 中 ，file_operations 的 各 个 成 员 函 数 部 使 用 container of €) REK private data, 256117 Œ 
platform driver 的 probe〈) 函数 中 完成 了 miscdev 的 注册 ， 而 在 remove〈) 函数 中 使 用 misc deregister O) 完 
成 了 miscdev 的 注销 。 


上 述 代码 也 改 用 了 platform device 和 platform driver 的 体系 结构 。 我 们 增加 了 一 个 模块 来 完成 
platform device 的 注册 ， 在 模块 初始 化 的 时 候 通 过 platform device alloc () 和 platform device add O 分 配 
JfFZlplatform device， 而 在 模块 番 载 的 时 候 则 通过 platform device unregister () 注销 platform device, 4 
代码 清单 12.23 所 示 。 


代码 清单 12.23 ”与 globalfifo 对 应 的 platform device 的 注册 和 注销 


kotari SEE plattornrm. device *globalftnro dev; 


2 


中 

| 

9 int ret; 

6 

J gQlobdbtirpopdew.cpLoauvtorm udevxce clloot'gLoDolrtTTfOo*,--Lr 
8 下 

9 return -ENOMEM; 

10 

11 ret — platform device add(globalfifo pdev); 
12 if (ret) { 

no platform device pubt(globDalriiro pdev); 
14 return ret; 

LS } 

16 

ey return 0; 

18 

ES 
20moduüle rnzxt(glooalfrifodev anil); 
zl 
ZO Stabe. vos . exe globelbritodev oxi (ord: 
zx 
24 platbormodevrce "unregioter(globDalrsro pdev)s 
20 


Zomodule.exit(globalPritodev exit); 


ZK-BilB E /home/baohua/develop/training/kernel/drivers/globalfifo/ch12 & 75 J globalfifo driver 和 
device 端 的 两 个 模块 。 在 该 目录 运行 make， 会 生成 两 个 模块 : globalfifo.ko 和 globalfifo-dev.ko， 把 
globalfifo.ko 和 globalfifo-devko 先 后 insmod， 会 导致 platform driverfllplatform device 的 匹配 ， 
globalfifo probe () 会 执行 ，/dewglobalfifo 贡 点 会 目 动 生成 ， 默 认 情 况 下 需要 root 权 限 来 访 
问 /dev/globalfifo。 


如 朵 此 后 我 们 rmmod globalfifo-dev.ko， 则 会 寻 狼 platform _ driver 的 remove〈) EX virg, B 
globalfifo remove () PRZIUETA T, /dev/globalfifo Ti AS E zB A e 


12.3.7 ”驱动 核心 层 
分 析 了 上 述 多 个 实例 ， 我 们 可 以 归纳 出 核心 层 肩负 的 3 大 职责 : 
1) 对 上 提供 接口 。file _ operations 的 读 、 写 、ioctl 都 被 中 间 层 搞定 ， 各 种 IO 模型 也 被 处 理 掉 了 。 
2) 中 间 层 实现 通用 逻辑 。 可 以 被 底层 各 种 实例 共享 的 代码 都 被 中 间 层 搞定 ， 避 免 底 层 重 复 实现 。 


3) 对 下 定义 框架 。 底 层 的 驱动 不 再 需要 关心 Linux 内 核 VFS 的 接口 和 各 种 可 能 的 MO 模型 ， 而 只 需 处 理 
与 具体 硬件 相关 的 访问 。 


这 种 分 层 有 了 时候 还 不 是 两 层 ， 可 以 有 更 多 层 ， 在 软件 上 呈现 为 面 同 对 象 里 类 继承 和 多 态 的 状态 。 上 一 
节 介 绍 的 终端 设备 驱动 ， 在 软件 层次 上 类 似 图 12.12 的 效果 。 


—Y 








- file operations : ops 


iT 
LN 


tty driver 


- tty operations : ops 





uart driver 


图 12.12 ttySko e EZ A. 


12.4 ”主机 驱动 与 外 设 驱 动 分 离 的 设计 思想 
12.4.1 主机 驱动 与 外 设 驱 动 分 离 


Linux 中 的 SPI、FC、USB 等 子 系统 都 利用 了 典型 的 把 主机 驱动 和 外 设 驱 动 分 离 的 想法 ， 让 主机 端 只 
负责 产生 总 线 上 的 传输 波形 ， 而 外 设 闪 只 是 通过 标准 的 API 来 让 主机 姗 以 适当 的 六 形 访问 目 刁 。 因 此 这 里 
面 束 涉及 了 4 个 软件 模块 : 


1) 主机 端的 驱动 。 根 据 具 体 的 FCC、SPI、USB 等 控制 器 的 硬件 手册 ， 操 作 有 具体 的 FCC、SPI、USB 等 
控制 器 ， 产 生 总 线 的 各 种 波形 。 


2) 连接 主机 和 外 设 的 纽 市 。 外 设 个 且 接 调用 主机 站 的 驱动 来 产生 波形 ， 而 是 调 一 个 标准 有 的 API。 由 
这 个 标准 的 API 把 这 个 议 形 的 传输 请 求 间 搂 “ 转 灾 ” 纵 了 有 基体 的 主机 靖 张 动 。 当 然 ， 在 这 里 ， 节 好 把 关于 六 
形 的 朱 述 也 以 未 种 数据 结构 标准 化 。 


3) 外 设 端的 驱动 。 外 设 接 在 CC、SPI、USB 这 样 的 总 线 上 ， 但 是 它们 本 身 可 以 是 触摸 屏 、 网 卡 、 声 
卡 或 者 任意 一 种 类 型 的 设备 。 我 们 在 相关 的 i2c driver. spi driver. usb driver 这 种 xxx driver 的 probe ©) pki 
数 中 去 注册 它 具体 的 类 型 。 当 这 些 外 设 要 求 FC、SPI、USB 等 去 访问 它 的 时 候 ， 它 调用 “连接 主机 和 外 设 
HN ZA tir BEER AN] PN EEA PI 

4) MAI. MAIS FE OR FID UM ie Ue] BRIN, “ERAS SRR”. Hci FLA 


ZASP il Zs AUS ASPA PU, ASIC ERE EE LAS PARKA, BER EEN LN TEE, TEAS xm 
Natit, ROR FRAC TIE CE ope Ay HE fe arch/arm/mach-xxx FP H ek arch/arm/boot/dts F [Al . 


APART RER tt Bi, TEE RAE CES EME EARME. DRERI FR TU 
2m; BERRA TNS. TELKML HH, APTS ERA, LY S ii “out of place". 


“es 


Linux EIGEN Ber FI, FE HEAR ALAN ACE I AS EM 4) ER, RET RA TS C 
Br. BEN BOR Non EER”, MEAL SE LM A AR, ESSE HEIR OREN, AVANTE EA et AN EGET EX 
WW, TELE C Rr EBB TNI): 站 在 外 人 设 咒 想 一 想 ， 它 也 变 得 一 里 轻 松 ， 因 为 它 根本 束 不 十 
要 知 违 目 己 接 在 主机 的 哪个 控制 融 上 ， 根 本 不 关心 对 方 古 张 和 三、 全 四 、 王 五 偿 古 六 麻子 ; VATE AS 
角度 上 ， 你 做 了 一 个 板子 ， 目 己 目 然 要 知 进 谁 接 在 谁 上 面 了 。 


下 面 以 SPI 子 系统 为 例 来 展开 说 明 ， 后 续 章 节 的 FC、USB 等 是 类 似 的 。 


12.4.2 Linux SPI 主 机 和 设备 驱动 


在 Linux 中 ， 用 代码 清单 12.24 的 Spi master 纺 构 体 来 搞 述 一 个 SPI 主 机 控制 硕 驱 动 ， 其 主要 成 员 是 主机 
控制 器 的 序号 (系统 中 可 能 存在 多 个 SPI 主 机 控制 器 〉 、 片 选 数 量 、SPI 模 式 、 时 钟 设置 用 到 的 和 数据 传输 
用 到 的 函数 等 。 


代码 清单 12.24 spi master 结 构 体 


LSLrucb spi master 7 


2 struct devicedev; 
3 
4 slo bus num; 
S 
6 /* chipselects will be integral to many controllers; some others 
] * might use board-specific GPIOs. 
8 *y 
2. a6 num Chipselecit; 
IRE 
IT 
12 
13 /* limits on transfer speed */ 
14 u32 min speed hz; 
lo: 22 maz spoed nz; 
16 
1.3 
18 
19 /* Setup mode and clock, etc (spi driver may call many times). 
20. * 


21 * IMPORTANT: this may be called when transfers to another 
2 * device are active. DO NOT UPDATE SHARED REGISTERS in ways 
23 * which could break those transfers. 


24 ay 

295- nt (^setup) (Struct PPL devices “opi? 

26 

27 /* bidirectional bulk transfers 

20 * 

29 * + The transfer() method may not sleep; its main role is 

30. % just to add the message to the queue. 

31 * + For now there's no remove-from-queue operation, or 

c. 39 any other request management 

39 “* = TO a Given spi device, Message queueing 15 pure £150 

34 * 

35 * + The master's main job is to process its message queue, 
S. selecting a chip then transferring data 

37 * + If there are multiple spi device children, the i/o queue 
23g * arbitration algorithm is unspecified (round robin, fifo, 
39 08S priority, reservations, preemption, etc) 

40 * 

41 * + Chipselect stays active during the entire message 

42 * (unless modriried by Spi Cranster.s.cs. Change ,= 0). 

43 * + The message transfers use clock and SPI mode parameters 
44 * previously established by setup() for this device 

45 */ 

46 int (PUransicr) (Struce HL device “spi, 

4] SLIUCE spi message mesg)? 

48 

49 /* called on release() to free memory provided by Spi Master * / 
DU void (^ocleanap)istruüct Spi. Oevice "*Spi); 

g1 

34 

Oo words 

54 /* 

55 * These hooks are for drivers that use a generic implementation 
oo * OF tranerer one message() proved Dy the core. 

DX m 


96 world ("Set Cs) (Struce Spi device "SpLl, bool enable), 
99 amt. (^transrer One) (Suruce Sp maeter *Master, StPHct Spa device Spi 


60 SELUCE Spr brauster *"Etranster) 
61. 

02 J/* gpio Chip select */ 

63 nE ACS. UDIOS 

64 

65 


分 配 、 注 册 和 注销 SPI 主 机 的 API 由 SPI 核 心 提供 


SLIUCE Spl ngster X:Gproulboc master (suruck. device “Nose, Unstoned: Se); 
Lie SOL ..egaster Nascer(sbruct Spa Master. cSmasuten) 
VOLO “SPL UNTeGLSter Masver(StULuct Spr HOSCcer. master). 


在 Linux 中 ， 用 代码 清单 12.25 的 spi_driver 结 构 体 来 描述 一 个 SPI 外 设 驱 动 ， 


spi masterlf] 2s" vig JX « 


代码 清单 12.2$ spi driver 结 构 体 


ISUrPruct Spr UPIMWeX. 4 


2 
3 
4 
5 
6 
7 
8 
9 


板 。 


接口 的 第 


—— 


CONST. “SELUCE Sp -devrce. md "gd cable; 


LN (5 probe) (struct Spl: device spi.) 

IAL (*remove)istrucc spr.devrce “Spi) 7 

void (~SHUCOOwn) (Struck Spl -device Asp)? 

INE (^suspend) (struct. ‘spl device "*"Sprl. pm message t mess); 
LAG (mro cume (ocr uct: “Spl. device 4 5p): 

SULEUCL. device driver CX Wed 


这 个 外 设 驱 动 可 以 认为 是 


可 以 看 出 ，spi_driver 结 构 体 和 platform _ driver 结构 体 有 极 大 的 相似 性 ， 都 有 probe ©) 、remove () 、 
suspend () ~ resume () 这 样 的 接口 和 device _ driver 的 实例 。 是 的 ， 这 几乎 是 一 切 客户 问 驱 动 的 种 用 模 


在 SPI 外 设 驱 动 中 ， 妆 通 过 SPI 忌 线 进行 数据 传输 的 时 候 ， 使 用 了 一 僚 与 CPU 无 天 的 统一 的 接口 。 


代码 清单 12.26 spi transfer 结 构 体 


LoC rut Spr branes her’ wd 


2 JW TUS Ok TI pe Dut => TA pur EE. 

3- * FOr Microwi re, one “butter must be null 

4. C Dulrers- must work wih Oma “map single () calls, unless 
S» cod spiri Tiessage.is dma Mapped reports a pre-existing mapping 
0. Ay 

T XD SE» One "USC DU 

8 void SOC DUL 

9 unsigned len; 
10 
l3. cms &dear- c tx dma; 
1 ma dor t rx dma; 


lS SELUCe. So table cx Sg; 
ld Struct sg table Tx S9; 


Us 
16 unsigned GS changes 17 
17 unsigned Cx DULY 
18 unsigned rx DOLLS 237 
19#define SPI NBETS SINGLE OxOL7* Jor: transfer *J/ 
20#define SPI NBITS DUA 0x02)" 2pits transter *7 
21#define SPI NBITS QUAD 0x04/* bits transfer “7 
22 US Dies. per word; 
2 Se delay usecs; 
24 u32 speed nz; 
25 
26 SUGUCL- Just hedd Crans er crc. 
2 
而 一 次 完整 时 SPI 传 输 流 程 可 能 不 是 只 包含 一 次 spi transfer， 它 可 能 包 


spi _ transfer 了 最 终 通 过 spi message HR Æ, HE X udin 812.27 Bra o 


1 个 关键 数据 结构 就 是 spi transfer， 它 用 于 描述 SPI 传 输 ， 如 代码 清单 12.26 所 示 。 


含 一 个 或 多 个 spi transfer, 


JX 


XE 


Ek 


——^ 
人 


代码 清单 12.27 spi message 结 构 体 


ISLruct Spr message: 4 


2 Sttuce. Ic head transfers; 

3 

4 SUPUDL SD device * Spi, 

5 

6 unsigned is dma mapped: 17 

7 

8 /* REVISIT: we might want a flag affecting the behavior of the 
9 * last transfer ... allowing things like "read 16bit length L" 
10 * immediately followed by "read L bytes". Basically imposing 
11 * a specific message scheduling algorithm. 

LA 25 

13 * Some controller drivers (message-at-a-time queue processing) 
14 * could provide that as their default scheduling algorithm. But 
15 * others (with multi-message pipelines) could need a flag to 
16 * tell them about such special cases. 

E. HEY 

ib 

19 /* completion is reported through a callback */ 
zt vord (*complete) (void *context); 
2l word *context; 
22 unsigned frame length; 
23 unsigned actual length; 
24 int Status; 
255 
26 /* for optional use by whatever driver currently owns the 
Zt Spi message ses JSebtween calls to GSpr.asyuc und uen Laver 
Zo» "SOOM L etel That Ss. Ue Spr Master COoncroOller driver. 
29. "ey 

3D. 全 下 queue; 

31 yord *state; 

327 


通过 spi message init C) 可 以 初始 化 spi_message， 而 将 spi_transfer 洪 加 a 到 spi_message 队 列 的 方法 则 


gu 


VOLO: Spr Message add benxltsbruct Spr brgnerer "uy SLLUCE Shr message *m). 


及 起 一 次 spi message P8 H [H]Zv Al RL PAT EH IRI APIS, AH3ESEREDUT TH ELA 
完 。 同 步 操 作 时 使 用 的 API 是 : 


Amt SPL Syne (Struc Spo devcse es 


TEFHRRZEAPIBI, ANS HSE RIK TAU Ah Sc, [Hikn]LAfEspi message complete r Et fE 82— 
gp, “YA Ob Soa, Armas ya. FESR AP BREINER APL: 


Lie; SPL ovIctsuPuct Spi. devrce “spl, SETU Spi: Message Message); 


代码 清早 12.28 是 非常 典型 的 初始 化 spi transfer. spi message 并 进行 SPI 数 据 传 输 的 例子 ， 同 时 
spi write Ò ~ spi read © 也 是 SPI 核 心 层 的 两 个 通用 快捷 API， 在 SPI 外 设 驱 动 中 可 以 直接 调用 它们 进行 
简单 的 纯 写 和 纯 读 操作 。 


代码 清单 12.28 SPI 传 输 实 例 sSpi write Ò ~ spi read (Ò API 


二 
ee 


3 

4 SW o5 Spl: Cransier t= { 

5 “EX DUL = buf, 
6 len — len, 
7 }; 

8 SULUCL Spi message m; 

9 
10 Spl Message. Intemm) 
Ll Spi message add talltst, Sm)? 
LZ returi Spi syne (spl, Sm) 
123 
14 


lostatcc- gmnlone cnt 
LOSpE -read(sbsucb spt devgrce TpDry QO*OUIL GIAO t Len) 


LT 

ilo: SULUCE Spr LhPanster t= { 

19 «ac TOUT = buf, 
20 len — len, 
2l ] 

A Struct Spr message TS 

29 

24 Spi message 1n1tb (em) 7 

Zo Spi. Message. add. taal (vcr. 807 

26 DeLulm. SOLS yuC (Spi; “am, 7 

Z1) 


SPISE Ld till AS SKA) T drivers/spi/, XEWKA EAE SEE, f spi master 的 transfer () 、 
transfer one () ~ setup ©) 这 样 的 成 员 图 数 ， 当 然 ， 也 可 能 是 实现 spi bitbang 的 txrx bufs O 、 
setup transfer () ~ chipselect O 这 样 的 成 员 了 图 数 。 代 但 清单 12.29 摘 取 了 drivers/spi/spi-p1022.c 的 部 分 代 
Ads 


代码 清早 12.29 SPIE HL BKB SE MT P 8 


static Int pl027 trani er one Message (Struc r Spr master “master, 
2 SUrucu gpi- message. msg) 

21 

4 -SULUCt plU22"pl022-- spo master get devdetadtmaster); 


PLOZZ=2Cur- msg. = msg; 


o 
6 /* Initial message state */ 
J 
o- Msg=-Stdre = TALE STAR 


9 
I0 DLOZ2 >OU Lralsrer = Ist enuryiunso-transrers.mnexo, 
L CO 
1:2 


13- J* Setup the SPI using the. per “chap oconfigurdtron */ 
LO Cur chim. = spi Gev .cuiLdaca(msg= spi) > 
19 plU22- Cur see = Pp lLOV Ze Ch poe ecrs  msg=7 spl cochcrpcseseoctls 


Lt restore stetetplu22y$ 
Lo TlusStpto22)7 


ZU.XT. Cpl022e20ur chrp-scxter type == POLLING- TRANS? ER) 
PAR do polling ~ransren(plL0Z2); 

22 else 

29 ao inbterrupLi dma vranster(plo022)5 

24 

29 fetur V; 

26) 

27 

JOSTALVG TInt PLOUZ SSLUDCSLEUGE, Spi device: ASPI) 
Z911 

DU woe 

3L y * SCULE that xs. common. for all versions *7/ 
32 XE (sSprcomode- & SPI CPOLR) 


EX tmp = SSP CLK POL IDLE HIGH; 

34 else 

es tmp: e SSP (CLK POL IDLE LOW; 

56. SoF WRITE.BIISQODIpe "Qro, tmp Sob “CRO MASK SPO. 0); 
34 

30 f (Spr omode -t SPI CPHA) 

39 tmp = SSP CLK SECOND EDGE; 

40 else 

41 tmp = SSP CLK FIRST EDGE; 

42 SSP WRITE BITS(chip-»cr0, tmp, SSP CRO MASK SPH, 7); 
43 


44 


481 


Dd: Je 
52 * Bus Number Which has been Assigned to this SSP controller 
53 * Qn Enis beard 


54 NJ 
59 Tilagter-opus Aum = platform info--bus. 1d; 
26 MaS Cer- num chrpselect = num cs; 


5? mester-^scrleamup.- plU22 cleanup; 
90 master-^setuP = plo0227 Setup; 


99 Saster--auto runtime (pm = true; 

o0 master-»iransfer one message = pl022 transrter one message; 

ol master-»unprepare transfer hardware = pl022 unprepare transfer hardware; 
62 ngster--rt = platronm Znmfo-r5 

oo IDaster-odev,.,of node = dev=>o0r node; 

64 

65 

66 } 


SPI 外 设 驱 动 吉 布 于 内 核 的 drivers、sound 的 各 个 子 目 录 之 下 ，SPI 只 是 一 种 总 线 ，spi_driver 的 作用 只 是 
将 SPI 外 设 挂 接 在 该 总 线 上 ， 因 此 在 spi driver 的 probe〈) 成 员 函 数 中 ， 将 注册 SPI 外 设 本 号 所 属 设备 驱动 


的 类 型 。 


和 platform driver 对 应 看 一 个 platform_ device 一 样 ，spi_driver 也 对 应 看 一 个 spi_device; platform device 
需要 在 BSP 的 板 文 件 中 添加 板 信息 数据 ， 而 spi device 也 同样 需要 。spi device 的 板 信 息 用 spi board info 结 
构 体 描述 ， 该 结构 体 记 录 痢 SPI 外 设 使 用 的 主机 控制 器 序号 、 卢 选 序号 、 数 据 比 特 率 、SPI 传 输 模式 〈 即 
CPOL、CPHA) 等 。 诡 基 亚 770 上 的 两 个 SPI 设 备 的 板 信 息 数 据 如 代码 清单 12.30 所 示 ， 位 于 板 文 件 
arch/arm/mach-omap 1 /board-nokia770.c# - 


代码 清单 12.30 ”诺基亚 770 板 文件 中 的 spi_board info 


IStatric Struct. Spr Doard into nokia? +0 Sor board inioll nitdata = 1 
2 [0] = ( 

3 .modalias = "lod. mrprd" 

4 .bus num = 2, /* 用 到 的 SPI 主 机 控制 器 序号 */ 
5 .Ghip select = 3, /* 使 用 哪个 片 选 * / 

6 .max speed hz = 12000000, /* SPI 数 据 传输 比特 率 */ 

y WpLatform data — &nokia770 mipid platform data, 

9 by 

2 php £23 
10 .modalias = "agds7846", 
l4 .bus num = 2, 
12 sen. select = 0, 
Le .max speed hz = 2500000, 
14 euro, = OMAP GPIO IRQ(15), 
Lo platform Cava = &nokia770 ads7846 platform data, 
16 Da 
173 


fELinux/H a EP, TEDL4&HJinit machine O 尔 数 中 ， 会 通过 如 下 语句 注册 这 些 spi board info: 


Spl. register poargd. 1nfo(nokia//0 Spi board inip; 
ARRAY SIZE(nokia770 spi board info)); 


这 一 点 和 局 动 时 通过 platform add devices ©) 添加 platform device 非 常 相 似 。 


ARM Linux 3.x 之 后 的 内 核 在 改 为 设备 树 后 ， 不 再 需要 在 arch/arm/mach-xxx 中 编 公 SPI 的 板 级 信息 了 了， 


Ta BUR] FESPA las D EA PIOS Baa. Ui 212.3129 th f arch/arm/boot/dts/omap3-overo-common- 
Icd43.dtsi ^ £5 H'Jads7846 T pi o 


代码 清单 12.31 通过 设备 树 添加 SPI 外 设 


l&mcspil(í 

2 pinctrl-names = "default"; 

3 pancerl=0> Smospill piss 

4 

S pt ouch GOT roller 9*7 

6 ads7846(01 

7 pinctrl-names = "default"; 

8 prucurl-0- <cads 7/046" piss; 

9 

10 compatible = "ti,ads7846"; 

T vcc-supply = «&ads7846reg»; 

1:2 

13 reg = «0»; AS 
14 sSpi-max-frequency = «1500000»; 

lio 

16 interrupt-parent = «&gpio4»; 

L7 interrupts = <180>; ee 
Le pendown-gpio = «&gpio4180»; 

19 
20 ti; x- min =./bits;7 l16€0x0» 
21 ti,x-max = /bits/ I6€«0xOfff; 
2 tr,y-min = /bits/ Le<0x0>; 
23 ti,y-max = /bits/ 16«0x0fff»; 
24 bi,x-plate-ohms = (bitsy, 6-198055; 
2.5 tipressure-max = /brts/ L6<255>; 
26 
2 linux,wakeup; 
298 Ke 


12.5 me 


真实 生活 中 的 驱动 并 不 像 第 6~11 划 里 那样 的 驱动 ， 它 往往 包含 了 platform、 分 层 、 分 离 等 请 多 概念 ， 
因此 ， 竺 习 和 领情 第 12 半 有 的 内 容 古 我 们 将 驱动 的 理论 用 于 工程 开 友 的 必要 环行 。Linux 内 核 目 前 有 和 白 多 个 
驱动 子 系 统 ， 一 个 个 去 学 肯定 是 不 现实 的 ， 在 方法 上 也 是 错误 的 。 我 们 要 掌握 其 规律 ， 以 不 变 应 万 变 ， 以 
无 招 胜 有 招 。 
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块 设备 是 与 字符 设备 并 列 的 概念 ， 这 两 类 设备 在 Linux 中 的 驱动 结构 有 较 大 差异 ， 总 体 而 言 ， 块 设备 
张 动 比 字 符 设 备 张 动 要 复杂 得 多 ， 在 IO 操作 上 也 表现 出 极 大 的 不 同 。 绥 冲 、LIO 调 度 、 请 求 队列 等 都 是 与 
块 设备 驱动 相关 的 概念 。 本 草 将 详细 讲解 Linux 块 设备 张 动 的 编程 方法 。 


13.1 慷 讲解 块 设备 的 VO 操作 特点 ， 分 析 字 和 从 设备 与 块 设备 在 IO 操作 上 有 的 牵 弄 。 

13.2 节 从 整体 上 描述 Linux 块 设备 驱动 的 结构 ， 分 析 主 要 的 数据 结构 、 函 数 及 其 关系 。 
13.3~13.5 丰 分 别 讲解 块 设备 驱动 模 世 的 加 载 与 季 载 、 打 开 与 释放 和 ioct O 函数 。 
13.6 节 非常 重要 ， 讲 述 了 块 设 备 IO 操 作 所 依赖 的 请 求 、bio 处 理 方 法 。 


13.7 节 在 13.1~13.6 节 所 讲解 内 容 的 基础 上 上， 总 结 在 Linux 下 块 设 备 的 读 写 流程 ， 实 现 了 块 设备 驱动 的 
一 个 有 具体 实例 ， 即 vmem disk 驱 动 。 


13.8 节 简单 地 讲解 了 Linux 的 MMC 子 系统 以 及 它 与 块 设备 的 关系 。 


13.1 块 设备 的 /O 操 作 特 点 
字符 设备 与 块 设备 1/O 操 作 的 不 同 如 下 。 


1) 其 设备 只 能 以 块 为 单位 接收 输入 和 返回 得 出 ， 而 字符 说 备 则 以 字 而 为 单位。 大 多 数 设 备 是 字符 设 
备 ， 因 为 它们 不 需要 缓冲 而 且 不 以 固定 其 六 小 进行 操作 。 


2) 块 设备 对 于 IO 请 求 有 对 应 的 缓冲 区 ， 因 此 它们 可 以 选择 以 什么 顺序 进行 啊 应 ， 字 符 设 备 无 顷 缓冲 
有 被 直接 旋 写 。 对 于 存储 设备 而 言 ， 调 整 谈 写 的 顺序 作用 巨大 ， 因 为 在 读 与 连续 的 局 区 的 存储 速度 比分 
Hs DX BEE 

3) 字符 设备 只 能 被 顺序 谈 写 ， 而 块 说 备 可 以 随机 访问 。 


虽然 毁 设 备 可 随机 访问 ， 但 是 对 于 人 破 盘 这 类 机 械 设 备 而 言 ， 顺 序 地 组 织 贷 设备 的 访问 可 以 提高 性 能 ， 
如 图 13.1 所 示 ， 对 局 区 1、10、3、2 的 请 求 补 调整 为 对 局 区 1、2、3、10 的 请 求 。 


在 Linux 中 ， 我 们 通 和 党 通过 人 磁盘 文件 系统 EXT4、UBIFS 等 访问 人 磁 检 ， 但 是 磁 可 也 有 一 种 原始 设备 的 访 
问 方式 ， 如 直接 访问 /dev/sdb1 等 。 所 有 的 EXT4、UBIFS、 原 始 块 设备 又 都 工作 于 VFS 之 下 ， 而 EXT4、 
UBIFS、 原 始 块 设备 之 下 义 包 含 块 1/O 调 度 层 以 进行 排序 和 合并 〈( 见 图 13.2) 。 


请 求 局 区 1 


请 求 届 区 10 


请 求 剧 区 3 





in KJ X2 


调整 前 调整 后 


图 13.1 调整 块 设备 VO 控 作 的 顺序 








块 设备 驱动 UE E 


图 13.2 ”Linux 抉 设备 子 系统 


LO 调度 层 的 基本 目的 是 将 请 求 按照 它们 对 应 在 块 设备 上 的 山区 号 进行 排列 ， 以 减少 磁头 的 移动 ， 所 


13.2 Linux 其 设备 张 动 结构 
13.2.1 block device _ operations 结 构 体 


在 块 设备 驱动 中 ， 有 一 个 类 似 于 字符 设备 驱动 中 file _ operations 结 构 体 的 block device _ operations 结 构 
体 ， 它 是 对 其 设备 操作 的 集合 ， 定 义 如 代码 清单 13.1 所 示 。 


代码 清单 13.1 block device operations 结 构 体 


LSbteuct block, device Operations 4 


Z ime (open) (struct block device *, Imode ts 

3 VOLO (^relesse) (Struct gendisk 7, tmode T)? 

4 LIVE do uw page) (struce block device “|. Sector t, Seruce page ^. Ine DW) 
9 int. [*L106t1) (struct block device *; Zmooe t; unsigned, unsigned long); 
6 ime. (*Compatl Looti) (Struct block device ^, Imode t, unsigned, unsigned Long)? 
7 int ("direct 200895) (sueruce Dlock device ~; Sector 5 

8 void **, Unsigned Long =); 

9 unsigned int (*oheck events) (struct gendisk “disk, 
10 unsigned int clearing); 
T /A* -»^media changed() 1S DEPRECATED, use ->check events() instead ae 
12 int (“media changed) (struct gendisk *); 
13 vord (“unlock native Capacity) (Struct Gencdisk “); 
14 int (*xevalidate disk) (struct gendisk =)? 
1:5 Imt q(*59etgeo)tstruct block device y ‘struce. hd geometry =); 
16 /* this callback is with swap lock and sometimes page table lock held */ 
UNE youd ("swap Slot tree notrry) (struct block device ^, unsigned long); 
18 struct module *owner; 


FAXR EZR PR BEET PT - 


1. 打 开 和 释放 


Lut (“Open) (struct block device ~=; Imode X); 
void (“release) (Struct. gendisk *, Imode LJ; 


SPE RAR, Suc MIT IPAS TES AE 117 


2.11/04% til 
Int X *rI0OLI) (struct block device *, imode t; unsigned, Unisagned tong); 
int ("compat roctl) (struct block device * Imode t, unsigned, unsigned Long); 


上 述 函 数 是 ioct1() 系统 调用 的 实现 ， 决 设备 包含 大 量 的 标准 请 求 ， 这 些 标准 请 求 由 Linux 通 用 块 设 
备 层 处 理 ， 因 此 大 部 分 块 设备 驱动 的 ioctl() 疯 数 相当 短 。 当 一 个 64 位 系统 内 的 32 位 进程 调用 ioctl() 的 
时 候 ， 调 用 的 是 compat ioctl OO 。 


3. 介 质 改 变 


rnt (“media Changed) (struct Gendisk *od); 


AS 


经 改变 ， 如 果 是 ， 则 返回 一 个 非 0 值 ， 否 则 返回 0。 这 个 函数 


BALA Val HS Dt Ka ae PP En E 
m Be EB ATE I A SAT AS 2 BE es BO, E 


是 
仪 适 用 于 支持 可 移动 介质 的 驱动 磊 ， 退 蜗 
移动 设备 的 驱动 不 需要 实现 这 个 方法 。 


unsigned ine ("check events) (Strucc gendisk “disk, 
unsigned int clearing); 


media changed © 这 个 回调 函数 目前 已 经 过 时 了 ， 已 被 check events O 替代 。Tejun 
Heo<t@Kkernel.org> 在 内 核 提交 了 一 个 补丁 ， 完 成 了 “implement in-kernel gendisk events handling” 的 工作 ， 这 
个 补丁 对 应 的 commit ID 是 77ea887e。 老 的 Linux 在 用 太空 间 里 轮 询 可 移动 磁盘 介质 是 售 存 在 ， 而 新 的 内 核 
则 在 内 核 空 间 里 轮 询 。check events O 函数 检查 有 没有 挂 起 的 事件 ， 如 果 有 
DISK EVENT MEDIA CHANGE DISK EVENT EJECT _ REQUEST 事件 ， 就 返回 。 


4. 使 介质 有 效 


int ("revalidate disk) (Struct gendisk ~ga? 


revalidate disk C) 函数 被 调用 来 啊 应 一 个 介质 改变 ， 它 给 驱动 一 个 机 会 来 进行 必要 的 工作 以 使 新 介质 
准备 好 。 


5.5 IK) i s I 


Ime. (598Lgeo) (Struce. DloGK device ~- Struct Hg geomecry ~y 


VA PAL BOR He Ko 2s 0 J Uff fei RAA "hd geometry Ts, hd geometry TJ Be WK. aX. T 
面 等 信息 ， 其 定义 于 include/linux/hdreg.h 头 文件 中 。 


0. 模块 指针 


struct module *owner; 


一 个 指 癌 拥有 这 个 结构 体 的 模块 的 指针 ， 它 通常 被 初始 化 为 THIS MODULE. 


13.2.2 ”gendisk 结 构 体 


在 Linux 内 核 中 ， 使 用 gendisk〈 通 用 人 破 盘 ) 结构 体 来 表示 一 个 独立 的 伐 盘 设备 《或 分 区 ) ， 这 个 结构 
体 的 定义 如 代码 清单 13.2 所 示 。 


代码 清单 13.2 gendisk 结 构 体 


lstruct gendisk { 


2 /* major, first minor and minors are input parameters only, 
3 * Nom" E use directly, Use disk devce() and disk max parre- 
4 y 

E int major; /* major number of driver */ 

6 Live Lest Minor; 

7 int manors: /* maximum number of minors, =lfor 

8 * disks that can't be partitioned. */ 

9 

10 char disk name[DISK NAME LEN]; /* name of major driver */ 
11 Char —(^devunode)(sSbtrucc gendisk “gd; umode © “made; 

12 

13 unsigned int events; /* supported events */ 

14 unsigned ING async events; /* async events, subset of all */ 
du 

16 /* Array of pointers to partitions indexed by partno. 

17 * Protected with matching bdev lock but stat and other 

18 * non-critical accesses use RCU. Always access through 
1:9 * helpers. 
20 A 
al SLIEHCL disk part tol. teu "part TOL; 
no ELruct hd Surucr parto 
PAS 
24 Const. Ssuruce Dock device operations ^rTOpsy 
25 struct request queue “gueuse; 
26 VOLO *DrEXvate Gata; 
21 
28 int, flags; 
29 struct device *driverfs dev; // FIXME: remove 
30 struct kKobDject *slave dir; 

5d 

32 Struct Lider rand state. ^randon; 

33 atomic t Sync 107 /* RAID */ 

34 struct digk events *ev; 

35#ifdef CONFIG BLK DEV INTEGRITY 

36 Struct Dik integri “In eg iL) 

37#endif 

38 int node id; 

39} 


major. first minor 和 minors 共 同 表 征 了 磁盘 的 主 、 次 设备 号 ， 同 一 个 磁盘 的 各 个 分 区 共 孕 一 个 主 设备 
写 ， 而 次 设备 号 则 不 同 。fops 为 block_device operations， 即 上 市 摘 述 的 块 设备 操作 集合 。queue 是 内 核 用 来 
管理 这 个 设备 的 VO 请 求 队列 的 指针 。private_data 可 用 于 指向 磁盘 的 任何 私有 数据 ， 用 法 与 字符 设备 驱动 
file 结 构 体 的 private_data 关 似 。hd struct 成 员 表 示 一 个 分 区 ， 而 disk part tb] 成 员 用 于 容纳 分 区 表 ，part0 和 
part tbl 两 者 的 关系 在 于 : 


disk-spart ToL part0] = disk- parti; 
Linux 内 核 提 供 了 一 组 函数 来 控 作 gendisk， 如 下 所 示 。 
1.4} Ri gendisk 


gendisk 结 构 体 是 一 个 动态 分 配 的 结构 体 ， 它 需要 特别 的 内 核 操 作 来 初始 化 ， 张 动 不 能 目 己 分 配 这 个 


结构 体 ， 而 应 该 使 用 下 列 函 数 来 分 配 gendisk: 


Struct Gendisk “alloc disk(1int minors); 


minors Z Ble 1k 1254456 FRI Ss ee, A ee ek A E, EC Ja minors ^ BE C42 
EX o 


2. 增 加 gendisk 
gendisk 结 构 体 被 分 配 之 后 ， 系 统 还 不 能 使 用 这 个 夏 盘 ， 需 要 调用 如 下 函数 来 注册 这 个 人 夏 租 设备 。 


VOLO edd disk(struct gendisk Fdisk)? 


特别 要 注意 的 是 : Xfadd disk O 的 调用 必须 友 生 在 驱动 程序 的 初始 化 工作 完成 并 能 啊 应 磁盘 的 请 求 
之 后 。 


3. 释 放 gendisk 
当 不 再 需要 磁盘 时 ， 应 当 使 用 如 下 函数 释放 gendisk。 


void del gendisk(struct gendisk *gp); 


4.gendisk 引 用 计数 


通过 get disk © 和 put disk © 函数 可 操作 gendisk 的 引用 计数 ， 这 个 工作 一 役 不 需要 驱动 杀 目 做 。 这 
PAS PB SL RA op a AY: 


Struct, Kobyect. “ger. dusk (struct gendisk “diek); 
void PUL disk(strüct gendisk *disk)j 


前 者 了 最终 会 调用 “kobject_ get (&disk to dev (disk) ->kobj) ; ”， 而 后 者 则 会 调 
用 “kobject put (&disk to dev (disk) ->kobj) ; " 


13.2.3 ”bio、request 和 request queue 


A 


IBS As 


实例 拍 述 了 该 VO 请 求 的 开始 而 区、 数据 方 同 〈 读 还 是 写 ) 、 数 据 放 入 的 页 ， 


人 小。 


一 个 bio 对 应 上 层 传递 给 块 层 的 1/O 请 求 。 每 个 bio 结 构 体 实例 及 其 


代码 清单 13.3 ”bio 结构 体 


LeScruce. pDvec. acer 1 


oo -10» OB Co P2 


9 
LUF? 
T 
12:758 


包含 的 bvec iter. bio vec 结 构 体 


其 定义 如 代码 清单 13.3 所 


PODCOL L Di Sector. /* device address in 512byte 
sectors */ 

unsigned int bi size; /* wesidual I/O count *y 

unsigned int Dx ox /* current index into bvl vec */ 

unsigned int bi bvec done; /* number of bytes completed 


in Current. bvec */ 


13 * main unit of I/O for the block layer and lower layers (ie drivers and 
14 * stacking drivers) 


Le Ww 


lostruct bio 4 


UN. 


Struce Dno ^D next; /* request queue link */ 
struct DIOCR device *bi bdev; 
unsigned long pi flags; /* status, command, etc */ 
unsigned long bi rw; /* bottom bits READ/WRITE, 
-tap DILS Priority 
x 
Struct Dvec Iter Dr ter? 


/* Number of segments in this BIO after 
* physical address coalescing is performed. 


id 
unsigned int Di phys Segments? 
struct bio vec "bi. 10 vec; /* the actual vec dist */ 
StLucb bac. Set *bi POOL? 
/* 


* We can inline a number of vecs at the end of the bio, to avoid 
^ double allocations for a small number of Dio vecs. This member 
* MUST obviously be kept at the very end of the bio. 

TU 


bUrucu DLO VEC bi inline vecs [0]; 


与 bio 对 应 的 数据 每 次 存放 的 内 存 不 一 定 是 连续 的 ，bio_vec 结 构 体 用 来 描述 与 这 个 bio 请 求 对 应 的 所 有 


的 内 存 ， 


素 实 际 是 一 个 [page，offset，len]， 我 们 一 般 也 称 它 为 一 个 片段 。 


代码 清单 13.4 bio vec 结 构 体 


Ltruct. pro vec. 4 


2 
3 
4 
2]; 


struct page *bv page; 
unsigned int bv len; 
unsigned int Dv Offset; 


它 可 能 不 忌 是 在 一 个 页 面 里 面 ， 因 此 需要 一 个 同 量 ， 定 义 如 代码 清早 13.4 所 示 。 辣 量 中 的 每 个 元 


LO 调度 算法 可 将 连续 的 bio 合 并 成 一 个 请 求 。 请 求 是 bio 经 由 VO 调度 进行 调整 后 的 结果 ， 这 是 请 求 和 
bio 的 区 别 。 因 此 ， 一 个 request 可 以 包含 多 个 bio。 当 bio 被 提交 给 IO 调度 器 时 ，LO 调 度 器 可 能 会 ; 
插入 现存 的 请 求 中 ， 也 可 能 生成 新 的 请 求 。 


41% bio 


每 个 块 设备 或 者 块 设备 的 分 区 都 对 应 有 自身 的 request queue， 从 IO 调度 器 合并 和 排序 出 来 的 请 求 会 被 


TZ (Dispatch)〉 到 设备 级 的 request_queue。 图 13.3 搬 述 f/'request queue. request. bio. bio vecZL[IR]H A 
系 。 


i. ^N = 4 A yh R 
J-"l'request H 1a bio 
request_ queue 每 个 request 可 能 包 售 多 1 
M zi 内 
请 求 





— bok ; ; request 
bi io vec \bi_idx 


每 个 bio 可 能 对 
tly "bio vec 














bio vec|bio vec|bio vec|bio vec 
7 T - T 





页 — " 
\ 每 个 bio_vec 对 应 一 个 
E 页 中 的 二 部 分 


图 13.3 request queue. request. bio^«llbio vec 
下 面 看 一 下 驱动 中 涉及 的 处 理 bio、request 和 和 request queue 的 主要 API。 


(1) 初始 化 请 求 队列 


EUeSL queue L *DIK inii gueue(request Tn proc “rin, spinblock C *lock); 


TARR BUT] SS — 71 BBE VH ADE PR BN TR TS PB BE PEI Us i] BA UAB EN B Eg IX ERU 
发 生 内 存 分 配 的 行为 ， 它 可 能 会 失败 ， 因 此 一 定 要 检查 它 的 返回 值 。 这 个 函数 一 般 在 块 设备 驱动 的 初始 化 
过 程 中 调用 。 


(2) 清除 请 求 队列 


void Dik. Cleanup. queue (fequest.queus C ~ © 


这 个 函数 完成 将 请 求 队列 返回 给 系统 的 任务 ， 一 上 般 在 块 设备 驱动 凶 载 过 程 中 调用 。 


(3) 分 配 请 求 队列 


reguest queue bL *DIKk alloc queue tint grip mask); 


对 于 RAMDISK 这 种 完全 随机 访问 的 非 机 械 设 备 ， 并 不 需要 进行 复杂 的 IO 调度 ， 这 个 时 候 ， 可 以 直 
fe PI VOW Eas, EFAS BPS BORA FE tag He BA A“ itil] eR” PKA (make request fn) 。 


void blk queue make request (request queue t * q, make request fn * mfn); 


blk alloc queue () 和 blk queue make request O 结合 起 来 使 用 的 饮 辑 一 般 是 


Xxx queue = bLK alloc: queue (GFP KERNEL)? 
blk queue make request (xxx queue, XXX make request); 


(4) 提取 请 求 


SUPUCL -requesbc * DLE peek requestostruot request queue qui 


Exh PR ai FRE RS TO CHIUOVSBERSRORXEO ， 如 有 果 没 有 请 求 则 返回 NULL。 它 不 会 消 
除 请 求 ， 而 是 仍然 将 这 个 请 求 保留 在 队列 上 上。 原先 的 老 的 函数 elv_next request O 已经 不 再 存在 。 


(5) 启动 请 求 


GO 


从 请 求 队列 中 移 除 请 求 。 原 先 的 老 的 API blkdev dequeue request O 会 在 blk start request () 内 部 被 
Val FA o 


我 们 可 以 考虑 使 用 blk fetch request O PAM, "EE [HIIS e blk peek request O 和 
blk start request CO 的 工作 ， 如 代码 清单 13.5 所 示 。 


代码 清单 13.3 blk fetch request ©) 函数 


Si 


Z1 

3 Struct.regquest rd: 

4 

5 pq DL peck equese.(g ).z 

6 LE EG) 

7 blk start request (rq); 
8 Et TO? 

2j 


(6) 3&jbiodl Fr Ek 


#define rq for each bio( bio, rq) \ 
if ((rq-»bio)) 
Bor “CO e ong ecDhoOL DEO- DTO = DLO DL- next) 


Iq for each bio © 遍历 一 个 请 求 的 所 有 bio。 


rdecrine . pro Tor each segment(bwl, Dio, -Itere start) X 
tor {riter = (Start) N 
(iter).bi size && à 
(CObvL = bio iter 20vect(bio);, XXter)3). Lys N 

Dro Advance Cem (BIO); etter), (CYL) sy. len) 
defines bro for each segment (bvl, brio, 1ter) \ 


~ pro Tor each Segment Dyle lO, ver, (DIO) FDL. crter) 


bio for each segment O Wj —" Pl bio] Pr bio vec. 


FIST Ine’ xq ror each sSegment(bvl, gy Uber) N 
__rq for each bio( iter.bio, rq) N 


Dro Bor esc Segment (vl, -CeL DLO BDeÉ.oer) 


rq for each segment O 1& {Qi — P WB & PT bio HY PT segment. 


(7) 报告 完成 


Eee 


vod blk _ end ignedquest s p SPpPSUOGU Xequesb. "ge sb OTOT) 


XN ^T ER 数 用 于 报告 r1 IR? 


否 完 成 ，error 为 0 表示 成 功 ， 小 于 0 表示 失败 
需要 在 持 有 队列 锁 的 场景 下 调用 。 


o blk end request all ©) 


类 似 的 函数 还 有 blk end request cur () ~ blk end request err () ~ blk end request () 、 


. _ blk end request cur () 以 及 ”blk end request err () 。 其 中 
xxx end request cur OO. 只 是 表明 完成 了 request 中 当前 的 那个 chunk， 也 殉 
bio cur bytes (rq->bio) 的 传输 。 


= blk end request all ©) 


征 完 成 了 当前 的 


石 我 们 用 blk queue make request O 纪 开 IO 调度 ， 但 是 在 bio 处 理 完 成 后 应 该 使 用 bio_endio O 函数 
通知 处 理 结 束 : 


人 


如 果 是 VO 操作 故障 ， 可 以 调用 快捷 函数 bio io error O ， 它 定义 为 : 


FACT IMG: Dco 0. error(oso) DLO ended (biol; ELO) 


13.2.4 LO 调度 器 


Linux 2.6 以 后 的 内 核 包 售 4 个 IO 调度 硕 ， 它 们 分 别 是 Noop VOW Eas. Anticipatory /O 1/3] £88 « 
Deadline IO 调度 器 与 CFQ VOW Zs. ELH, Anticipatory IO 调度 器 算法 已 经 在 2010 年 从 内 核 中 去 探 了 。 


Noop LO 调度 喜 是 一 个 简化 的 调度 程序 ， 访 算法 实现 了 一 个 简单 FIFO 队 列 ， 它 只 进行 最 基本 的 合并 ， 
比较 适合 基于 Flash 的 存储 器 。 


Anticipatory IO 调度 器 算法 推迟 IO 请 求 ， 以 期 能 对 它们 进行 排序 ， 获 得 最 高 的 效率 。 在 每 次 处 理 完 读 
请 求 之 后 ， 不 是 立即 返回 ， 而 是 等 每 几 个 做 秒 。 在 这 上段 时 间 内 ， 任 何 来 自 临 近 区 域 的 请 求 都 被 并 即 执行 。 
超时 以 后 ， 继 续 原 来 的 处 理 。 


Deadline OÑ KE 23 72 £1 XT Anticipatory W/O 调度 右 的 缺点 进行 改善 而 得 来 的 ， 它 试图 把 每 次 请 求 的 延迟 
降 至 最 低 ， 访 算法 重 排 了 请 求 的 顺序 来 提高 性 能 。 它 使 用 轮 询 的 调度 硕 ， 简 涪 小 巧 ， 提 供 了 了 最 小 的 谈 取 延 
迟 和 疝 佳 的 厨 吐 量 ， 特 别 适 合 于 读 取 较 多 的 环境 《比如 数据 库 ) 。 


CFQ LO 调度 器 为 系统 内 的 所 有 任务 分 配 均 匀 的 IO 带宽 ， 提 供 一 个 公平 的 工作 环境 ， 在 多 媒体 应 用 
中 ， 能 保证 音 、 视 频 及 时 从 磁盘 中 读 取 数据 。 


内 核 4.0-rclblock 目 孙 中 的 noop-iosched.c、deadline-iosched.c 和 cfq-iosched.c 文 件 分 别 实现 了 
IOSCHED NOOP, IOSCHED DEADLINE 和 IOSCHED CFQ 调 度 算法 。as-iosched.c 这 个 文件 目前 已 经 不 再 
存在 。 当 前 情况 下 ， 默 认 的 调度 絮 是 CFQ。 


可 以 通过 给 内 核 添加 局 动 参数 ， 选 择 所 使 用 的 VO 调度 算法 ， 如 : 
kernel elevator=deadline 
也 可 以 通过 类 似 如 下 的 命令 ， 改 变 一 个 设备 的 调度 融 : 


echo SCHEDULER > /sys/block/DEVICE/queue/scheduler 


13.3 Linuxi SRN) BAC 


在 块 设备 的 注册 和 初始 化 阶段 ， 
写 ， 完 成 这 个 任务 的 函数 是 register blkdev () , 


与 字 付 设备 驱动 类 似 ， 块 设备 驱动 要 注册 它们 自己 到 内 核 ， 申 请 设备 
其 原型 为 : 


int. register Dikdev(unsigned ant. major, const char *name); 


major 人 参数 是 块 设备 要 使 用 的 主 设 备 写 ，name 为 设备 名 ， 它 会 显示 在 /proc/devices 中 。 如 果 major 为 0， 
内 核 会 自动 分 配 一 个 新 的 主 设备 号 ，register blkdev O 函数 的 返回 值 就 是 这 个 主 设备 号 。 如 果 


register blkdev () i% 


—/S TUE, Fen ACA S —-MBTR 


S5register_blkdev () 对 应 的 注销 函数 是 unregister blkdev O ， 其 原型 为 : 


int unregister bikdev (unsigned nb Major, const char *name); 


Ath FE PKI 


XH, feu register blkdev O 的 参数 必须 与 传递 给 register blkdev O WATLE, AUA ER ay 
返回 -EINVAL。 


数 的 工作 ， 并 且 可 能 会 分 配 、 初 始 化 gendisk 


加 gendisk。 


代码 清单 13.6 演 


blk init queue () 和 add disk O 的 工作 。 


代 但 清单 13.6 E de KEPT MG 


lsStagatro Ine xxx Init (vord) 


/* 块 设备 驱动 注册 */ 

if (register blkdev(XXX MAJOR, "xxx")) | 
err = -—EIO; 
Gocco Our, 

) 


/* 请 求 队列 初始 化 */ 


PREZ Ib, TEER UAC ERIS ORE A, A i BATE OPAC. DERA, SB RE Ha BAS A RK 


， 给 gendisk 的 major、fops、queue 等 成 员 赋 值 ， 最 后 添 


页 示 了 一 个 典型 的 块 设备 驱动 的 初 妈 化 过 程 ， 其 中 包含 了 register blkdev O ~ 


Xxx queue = Dik init queue(xxx request, xxx lock); 


if (!xxx queue) 
goto out queue; 
blk queue max hw sectors(xxx queue, 255); 
DLE queue Logical Lock Ssize(xxx queue, L2); 


/* gendisk 初 始 化 */ 
Xxx disks-»major = XXX MAJOR; 


ARK OLESKS"CELIISC Minor = P; 

xxx GOISKS- 0Da = xxx Op. 

XXX disks->queue = xxx queue; 

Sprintr(xxx disks-»dlsk name, "xxxed' , 2197 


get Capacity (xxx digk; Bex Size *2)7 
add disk(xxx disks); /* 添加 gendqisk */ 


Peturm U; 
out queue: unregister blkdev (XXX MAJOR, "xxx"); 
ont put Gdisk (xxx disks); 


20 Dik cleanup queue(xxx queue); 
Zo 

20. retur cENOMEM; 

SUM 


上 述 代码 第 13 行 的 blk_ queue max hw sectors © 用 于 通知 通用 块 层 和 LO 调度 需 访 请求 队 列 文 持 的 
个 请 求 中 能 够 包含 的 最 大 而 区 数 ， 第 14 行 blk queue logical block size ©) 则 用 于 告知 该 请 求 队列 的 逻辑 
块 大 小 。 


在 块 设备 驱动 的 凶 载 过 程 中 完成 与 模块 加 载 久 数 相反 的 工作 。 
1) 清除 请 求 队列 ， 使 用 blk cleanup queue () 。 
2) 删除 对 gendisk 的 引用 ， 使 用 put disk ()。 


3) 删 际 对 块 设 备 的 引用 ， 注 销 块 设备 驱动 ， 使 用 unregister blkdev © . 


13.4 ” 块 设 备 的 打开 与 释放 


块 设备 驱动 的 open() 函数 和 其 字符 设备 驱动 的 对 等 体 不 太 相 似 ， 前 者 不 以 相关 的 inode 和 file 结 构 体 
指针 作为 参数 《〈 因 为 fle 和 inode 概 念 位 于 文件 系统 层 中 ) o fEopen O 中 我 们 可 以 通过 block_device 参 数 
bdev3XHXprivate data、 在 release C) PRAM P MM gendiskZ ZXdisk3X HX, Ogi 8.13.7 Prz .- 


代码 清单 13.7 在 块 设备 的 open〈() /release O rS Zt rp private data 


lstatic int xxx open(struct block device *bdev, fmode t mode) 
21 

3 Gtrucut Xxx dev *deyv = Ddev=7-bd disk=-privare daca; 

4... 

5 return 0; 

6 } 

7 

OSLatlo word Xxx release(struct Gendisk "disk; fmode c mode) 
23 
LD. SELUCt XIX dev “dey = disk-^praivate data; 
JJ ues 


13.5 ” 坎 议 备 豫 动 的 ioctl 范 数 


与 字符 设备 驱动 一 样 ， 块 设备 可 以 包含 一 个 ioctL O 函数 以 提供 对 设备 的 IO 控制 能 力 。 实 际 上 ， 高 
层 的 块 设 备 层 代码 处 理 了 绝 大 多 数 IO 控 制 ， 如 BLKFLSBUF、BLKROSET、BLKDISCARD、 
HDIO_GETGEO、BLKROGET 和 BLKSECTGET 和 等 ， 因 此 ， 在 其 体 的 块 设备 驱动 中 通常 只 需要 实现 与 设备 
相关 的 特定 ioctl 命 令 。 例 如 ， 源 代码 文件 为 drivers/block/floppy.c 实 现 了 与 软驱 相关 的 命令 (如 FDEJECT、 


FDSETPRM, FDFMTTRK 守 ) 。 


Linux MMC 子 系统 文 持 一 个 IOCTL 命令 MMC IOC CMD，drivers/mmc/card/block.c 实 现 了 这 个 命令 的 
处 理 ， 如 代码 请 半 13.8 所 示 。 


代码 清单 13.8 Linux MMC 块 设备 的 ioct] © 函数 


leStatic ane mmc Dik roctlistruoct block device ~bdev, Imode t mode, 


2 unsigned int cmd, unsigned long arg) 

24 

4 int ret = -EINVAL; 

S i1 (cmd ee MMC LOC CMD) 

6 ret = mmc Dik root ocmdibdev, (Struct mmc 00 cmd “User: *)arg); 


a return ret; 
8} 


13.6 ” 块 设备 驱动 的 VO 请 求 处 理 


13.6.1 使 用 请 求 队列 


块 设备 驱动 在 使 用 请 求 队 列 的 场景 下 ， 会 用 blk init queue O 初始 化 request queue， 而 该 函数 的 第 一 
ANS BBO Ee We EAH RIAN FET. request _ queue 会 作为 参数 传递 给 我 们 在 调用 blk init queue ©) 时 指定 的 
请 求 处 理 函 数 ， 项 设备 驱动 请 求 处 理 函 数 的 原型 为 : 


Static vold xxx reg(struct request queue 7g) 


iX ^ PRIS Be EH 37] EE U.S AKU Ae P LE GS] KB OST i eh HIS SERVER, "ELT URL 
PUT PL. TARA 3:32 LIESS Aot request} MARANO E UERR LEA — XE ZETA 
PALA IAA TAREA) . TIBI ALIS. 925 I — P fe] BD eg eA EE ERICH, ERF 


drivers/memstick/core/ms_block.c. 
代 但 清单 13.9 RBC ESRI R ER BU AE 


Static voro meo Submit Tego ruc request queue 7d) 


3 SUrUCE menstick dev *card = qe^queuedaras 
4 Struct msb data mso = memstick.get drvdata (card) ; 
E struct request *req - NULL; 
6 
7 dbg verbose("Submit request"); 
8 
9 if (msb-»card dead) { 
10 dbg("Refusing requests on removed card"); 
11 
12 WARN ON(!msb-»io queue stopped); 
Lo 
14 whale (€(req = Dik retos reguestioq)). t= NUCL) 
La blk end request all(req, -ENODEV); 
Lib return; 
1.7 } 
18 
19 if (msb->req) 
20 returns 
21 
22 Lt (mab >10 queue stopped) 
23 queue work(msb-»io queue, &msb-»io work); 
24} 


上 述 代码 第 14 行 使 用 blk fetch request O 获得 队列 中 第 一 个 未 完成 的 请 求 ， 由 于 msb->card dead 成 
说 ， 实 际 上 我 们 处 理 不 了 该 请 求 ， 所 以 就 直接 通过 ”blk end request all (req, -ENODEV) 返回 错误 了 。 


正常 的 情况 下 ， 退 过 queue work (msb->io queue, &msb->io work) 局 动工 作 队 列 执行 


msb io work (struct work struct*work〉 这 个 函数 ， 它 的 原型 如 代 公 清单 13.10 所 示 。 


代码 清单 13.10 msb io work ©) 完成 请 求 处 理 


lstgtic void msb 10 work(struct work Struct work), 
PA 
3 struct mb data *msb = container of (work, struct msb data, 10 work); 


4 rnt page, error, len; 
2 SeOPOE E lods 
6 unsigned long flags; 
7 Serut. SCaleerlist. “SG = MS > prea loc sg; 
8 
9 abo: werboset IO. work started”); 
10 
Tyi while (1) { 
LZ spon ook :rgsave(&msb-»og lock, tlags):; 
bo 
14 Le, mnsbeasueed T Lush Cacher 4 
l5 meb=rnsed, flush cache = false, 
16 spun unlock r1rqrestore(snmsbesq Lock, flags); 
17 ieb-oocache flush (msb)7 
LO continue; 
19 j 
20 
21 if (!msb->req) { 
22 nsb-^req- e blk fetch request (msb=>queue); 
23 if (!msb->req) { 
24 abg "werbose("rOov NO More: requests: SRELI]? 
29 sprn unlock rqrestore(ensbe sq Lock, Clag) 
26 return; 
2 j 
28 j 
29 
30 span. unlock rfgrestore(smsbe^g look, flags); 
od 
97 /* If card was removed meanwhile */ 
33 if (!msb->req) 
34 return; 
39 
36 L* process: the: request: *7/ 
eyi abo. ver bese. ("TO processing New Lequese) y 
38 DIK rq map sg(msb-^queue, moba redr 80); 
39 
40 lba = DLE ra postumso-2redq); 
41 
42 sector div(lba, msb-»page size / 512); 
43 page codo diy (be, msb=Apages- rmn block); 
44 
45 It (nq date. drrimsberegq) => READ) 
46 error = sb do. read .requestimsb, lbs, page; Sg, 
4] blk rq bytes (isb->req), «Leni; 
498 else 
49 error --msb do wrive requestimsb, iba, page, 307 
SO DEK r Dytes (msb=>req), sben 
Du 
OZ spin. lock argqsave (¢msb=>q. lock, flags); 
53 
54 if (len) 
Su MEL -qIcndcobeguestimosbDe Heg. Bs. ben) 
56 msb->req = NULL; 
a, 
58 if (error && msb->reg) { 
J9 dog.verbpose( ros ending One Secor: OL che neguest “with: error"; 
60 TI WIL, DIE Sndgcreguestiue Led. error. MD page SIE) 
61 msb->req = NULL; 
62 } 
63 
64 if (msb->req) 
65 人 ROSS request: still pending”); 
66 
67 Span ‘unlock nrgrestore(smsDb-e2q look, tlags); 
68 } 
69 } 


EI STC BUS ^. 265547 WIR] blk end request (msb->req, 0, len) 实际 上 告诉 了 上 层 该 请 
求 处 理 完 成 。 如 果 读 写 有 人 错 ， 则 调用 blk end request (msb->req, error, msb->page size) ， 把 出 错 原 因 
作为 第 2 个 参数 传 入 上 层 。 


第 38 行 调用 的 blk rq map sg O 函数 实现 于 block/blk-merge.c 文 件 。 代 码 清 蛙 13.11 列 出 了 该 函数 的 实 
现 中 比较 精华 的 部 分 ， 它 通过 rq for each bio () ~ bio for each segment O 来 遍历 所 有 的 bio， 以 及 所 有 
的 卢 段 ， 将 所 有 与 某 请 求 相 关 的 页 组 成 一 个 scattevgather 的 列表 。 


代码 清单 13.11 blk rq map sg © 函数 


Tine, De Fo Map: sotseruck, Lequesc GEUS ein 
2 striuct Scatterlist “sc Lise) 


4 Struct -scatterlist *sg — NULE; 
int nsegs = 0; 


Lf (fgq-»bro) 
nsegs = _-DLk Dios Map so (dg; Xqssbrio. Sglrsts- Gs); 


10} 

LF 

lostatrc- nt. LIK Doo- map SOgIsUPUCEJ-equesu queue rgy SOUCO DLO Thre 
13 struct: scatterlist *sglrsct, 

14 Struct scabtLerlrst **Ssq) 

15{ 

16 Struct DLO- vec bDveoc. Dvprv = X NULE f; 

La Struct DVSO- Iter Iter; 

119 int nsegs, cluster; 

19 

20 nsegs = 0; 

Zl Cluster Gun quede Cluster) y 

22 eer 

2 LOP Gach. DIOUODIQ) 

24 DIo lor Gach Seqmentbvec, bio, ITST) 

2D ..blkcsegment 十 
20 &nsegs, &cluster); 

2 

29 return nsegs; 

29 

30 

Slistatic: inline vord 

Du. lk Segment Map SOCSULUCU regeo Queue: tay Suruce DIO vec *DVSC, 


33 SEDUCE. SCacter lise: SSgLISU. SDIUSGL DLO vec FOID Y; 
34 SEruct cscartLerlnsrt. Reg; .LiL ^nsegs; nt "*"cluster) 
OUI 

26 

oT, INL TOCOS = Deo Dy len; 

Sie. 

39 if (*sg && *cluster) { 

40 BE CU-SOg)-clemgtl 4 nbybtes- > queue max segment s2zzeig)y 
41 goto new segment; 

42 

43 It (IBIOVEC PHYS MERGEABhE(DVDEV, -Dvec)) 

44 goto new Segment; 

45 lf 4IBIOVEC SEG BOUNDARY (Gr Dvprv, bDvec)) 

46 gouo- new Segment; 

47 

48 (*sg)->length += nbytes; 

49 } else { 

o0new segment: 

ope Lr (1*sq) 

oz *eg = sglist; 

5S else { 

54 es 

DD * If the driver previously mapped a shorter 

56 * list, we could see a termination bit 

efi * prematurely unless it fully inits the sg 

58 * table on each mapping. We KNOW that there 

99 x must be more entries here or the driver 

60 * would be buggy, so force clear the 

61 * permrnatcon Dit to -uadvord doing a full 

62 Apg anit- cable (): in drivers Sor seach. command. 
63 a 

64 eg urmerk,end(i*eg)r 

65 FeO: = xo MExc (SG) 

66 } 

67 

68 ag Seu page(s; DVCD page; nbyves;, byvec- by OIL eE)? 
69 (*nsegqs) ++; 

T } 

TX *bvprv - *bvec; 


—Jix su R Xy X F¥scatter/gatherFe MDMA REE, ‘ARES, EMS Tpci map sg O 或 者 
dma map sg (O 2KXtíT L3hscatter/gather7l] € DMA 了， 之 后 进行 便 件 的 访问 。 


13.6.2 不 使 用 请 求 队列 


使 用 请 求 队 列 对 于 一 个 机 械 磁 盘 设 备 而 言 的 确 有 助 于 捉 高 系 纺 的 性 能 ， 但 旦 对 于 RAMDISK、 
ZRAM (Compressed RAM Block Device) 等 完全 可 真正 随机 访问 的 设备 而 言 ， 无 法 从 高 级 的 请 求 队列 逻辑 
中 获 葵 。 对 于 这 些 设 备 ， 块 层 文 持 “ 无 队列 ”的 操作 模式 ， 为 使 用 这 个 模式 ， 驱 动 必 须 提供 一 个 “制造 请 
求 "函数 ， 而 不 是 一 个 请 求 处 理 函 数 ,，“ 制 造 请 求 ” 函 数 的 原型 为 : 


Static void xxx make requestistruct request queue. “queue, Struct blo *b10); 


块 设备 驱动 初始 化 的 时 候 不 再 调用 blk init queue O ， 而 是 调用 blk alloc queue O 和 


blk queue make request () , xxx make request 则 会 成 为 blk_ queue make request O 的 第 2 个 参数 。 


xxx make request OO 函数 的 第 一 个 参数 仍然 是 “请 求 队 列 ”， 但 是 这 个 “请 求 队列 ”实际 不 包含 任何 请 
求 ， 因 为 块 讨 没有 必要 将 bio 调 整 为 请 求 。 因 此 ,“ 制 造 请 求 ” 函 数 的 主要 参数 是 bio 绪 构 体 。 人 代码 清单 13.12 
所 示 为 一 个 “ 制 千 请求” 函数 的 例子 ， 它 取材 于 drivers/block/zram/zram drv.c。 


代码 清单 13.12 “制造 请 求 ”函数 例 程 


lotdtrio void zram Make reguestisLruect reguest queue. queue. Strucct bio. *b10) 


E 
3 T 
4 | Zram make request(zram, bio); 
S 
6j 
7 
OSLdLlc vod —-2ranm make. requestcisLtrucc ram "zramm; SCUO Do. 9516) 
91 
10 lat Offser; 
11 u321ndex; 
12 struct Dio vec byvec; 
La Struck OVC T ILOT 
14 
15 index = bio->bi iter.bi sector >> SECTORS PER PAGE SHIFT; 
16 Se = (blo=>br ATer.DL Sector € 
17 (SECTORS PER PAGE - 1)) << SECTOR SHIFT; 
18 
19 if (unlikely(bio-»bi rw & REO DISCARD)) { 
20 zram Dro-discárd(zram, Index; Ofrser, bio); 
21 bio endio (Dio; 0); 
22 recur; 
4 } 
24 
25 bio for each segment(Dvec, Dic; 159r) 1 
26 nl Max transfer Size = PACE OIZE = OPÍIÍset; 
21 
28 Lt (bvec.bv len > Max trauserer suze) 4 
29 f 
30 * zram bvec rw() can only make operation on a single 
o * zram page. Split the bio vector. 
32 ay 
33 struct Dro vec by; 
34 
eie Dv,.Dv page = Dvec.bv page; 
36 bv.bv len = max transter Size; 
34 by. DV OLISOL = .Dveoc.bv Oflset; 
38 
39 if (zram bvec rw(zram, &bv, index, offset, bio) « 0) 
40 qoto Out. 
41 
42 bv By len = DVCD Len. = Max UCransier size; 
43 DVD- OLL Ger = Max Lraunsrer Size; 
44 if (zram bvec rw(zram, &Dbv, index + Ty U; Dio) < 0) 


45 goto out; 


46 ) else 
4] | (Zire vec: IW lan. COV Indez; OQILISeba. bro) < 03 
498 GOLO- Quis 


50 update. positron (cindex; eorLrset, DVSO]; 
51 } 


59 set DIL(BIO UPTODATE, SSDIO-sDE Ll1399)7 
54 bro endrotblo, 0); 
J9 return 


OO pro TO errorum) 
上 述 代 但 通过 bio for each segment (©) 3X4VbiorP H] ff segement, w4 ii] Hjzram bvec rw O 完成 内 
FRAG. FAH. MEATS A. 


ZRAMÆ Linux h FH A FEI, ERNE AN TE KE AS WAPI ACHR aX, (oe AB A ee A 
动 压缩 功能 ， 从 而 可 以 达到 辅助 Linux 匿 名 页 的 交换 效 来 ， 变 相 “ 增 大 ”了 内 人 存 。 


13.7 实例: vmem disk JJ 
13.7.1 vmem disk 的 便 件 原理 


vmem disk 是 一 种 模拟 磁 礁 ， 其 数据 实际 上 存储 在 RAM 中 。 它 使 用 通过 vmalloc() 分 配 出 来 的 内 契 空 
间 来 模拟 出 一 个 人 磁盘， 以 块 设备 的 方式 来 访问 这 上 厂 内 存 。 该 驱动 古 对 字符 设备 驱动 章 广 中 globalmem 了 驱动 
的 块 方 式 改造 。 


加 载 vmem disk.ko 后 ， 在 使 用 上 默认 模块 参数 的 情况 下 ， 系 统 会 增加 4 个 块 设备 节点: 


# ls -1 /dev/vmem disk* 


brw-rw---- 1 root disk 252, 0 2H 25 14:00 /dev/vmem diska 
brw-rw---- 1 root disk 252, 16 2H 25 14:00 /dev/vmem diskb 
brw-rw---- 1 root disk 252, 32 2H 25 14:00 /dev/vmem diskc 
brw-rw---- 1 root disk 252, 48 2H 25 14:00 /dev/vmem diskd 


FLEA, mkfs.ext2/dev/vmem diska 命 令 的 执行 会 回馈 如 下 信息 : 


5 sudo mkfs.ext2  /dev/vmem diska 

mke2fs 1.42.9 (4-Feb-2014) 

Filesystem label- 

OS type: Linux 

Block size-1024 (log=0) 

Fragment size-1024 (log=0) 

Stride-0 blocks, Stripe width=Oblocks 

64 inodes, 512 blocks 

25 blocks (4.88$) reserved for the super user 
First data block=1 

Maximum filesystem blocks-524288 

l block group 

8192 blocks per group, 8192fragments per group 
64 inodes per group 

Allocating group tables: done 

Writing inode tables: done 

Writing superblocks and filesystem accounting information: done 


它 将 /dewvmem diska 格 式 化 为 EXT2 文 件 系 统 。 之 后 我 们 可 以 mount 这 个 分 区 并 在 其 中 进行 文件 读 写 。 


13.7.2. vmem diskJX z//E ER E] JU E E SEDE EV, 


vmem disk 驱动 的 模块 加 载 函 数 完 成 的 工作 与 13.3 节 给 出 的 模板 完全 一 致 ， 它 支持 “制造 请 求 ”(〈 对 应 
于 代码 清单 13.9) 、 请 求 队列 (对 应 于 代码 清单 13.10〉 两 种 模式 (请 注意 在 请 求 队列 方面 又 支持 简 、 繁 
两 种 模式 ) ， 使 用 模块 参数 request_mode 进 行 区 分 。 代 码 清 单 13.13 给 出 了 vmem disk 设 备 驱 动 的 模块 加 载 
Ej D ER AL 


代码 清单 13.13 vmem disk 设 备 驱 动 的 模块 加 载 与 凶 载 水 数 


lstalic void setup device(struct vmem disk dev *dev, ant whitch) 


an 
2 memset (dev, Uy Sizeot (Struce vmen disk dev):) 7 
4 dev-2s1ze = NSECTORS*HARDSECT SIZE; 
5 dev->data = vmalloc(dev->size); 
6 if (dev->data == NULL) 1 
7 printk (KERN NOTICE "vmalloc failure.*n"); 
8 return; 
9 j 
10 Spin Jock amir (6dev=> lock); 
UM 
12 J> 
13 * The I/O queue, depending on whether we are using our own 
14 * Make. request IUDCLCLOH OF NOL. 
UMS EJ 
16 switch (request mode) { 
17 case VMEMD NOOURBUb: 
18 dev->queue = blk. alloc queue(GFP.KNERNEL); 
19 if (dev->queue == NULL) 
20 goto out vires; 
Al blk queue make request (dev->queue, vmem disk make request); 
zc break; 
2 default: 
24 printk(KERN NOTICE "Bad request mode $d, using simple\n", request mode); 
2 case VMEMD QUEUE: 
Z6 dev->queue = blk init queue(vmem disk request, &dev->lock); 
21 if (dev->queue == NULL) 
28 SOTO Out Vres; 
2 break; 
30 ) 
Cu blk:queue logical block size(dev-»queue, HARDSECI SIAE)? 
3z dev->queue->queuedata = dev; 
33 
34 dev-»gd = alloc disk(VMEM DISK MINORS) ; 
35 if (!dev->gd) { 
36 printk (KERN NOTICE "alloc disk failure\n"); 
2T goto out vfree; 
38 ) 
39 dev->gd->major = vmem disk major; 
40 dev->gd->first minor = which*VMEM DISK MINORS; 
41 dev->gd->fops = &vmem disk ops; 
42 dev->gd->queue = dev->queue; 
43 devesgde^privarte daba = dev; 
44 Siprinta (cdev-ogd=-edisk name, 32, “vem diskeo" ,. which F Tany 
45 See capacrtvidev--ga, NSECTORS*(HARDSECT SIZE/KERNEL SECTOR SIZE) ); 
46 add: disk(dev->gd) 7 
4] return; 
48 
49out vfree: 
50 if (dev-»data) 
c vfree(dev-»data); 
32} 
53 
54 
99Starioc ont Ani Vmem disk tnt (yo1d) 
5641 
D int 17 
58 
09 vmem disk major = register blkdev(vmem disk major, "vmem disk"); 
60 if (vmem disk major <= U) { 
61 printk (KERN WARNING "vmem disk: unable to get major number\n"); 
62 return -—-EBUSY; 
63 ) 
64 


65 devices = kmalloc(NDEVICES*sizeof (struct vmem disk dev), GFP KERNEL); 


66 if (!devices) 


67 goo Our Un EoI o Lel 

68 för {L =- 03. a. < NDEVICES: LFF) 

69 Setup. devboelde voces F ae de 

70 

pall return 0; 

42 

TOOUt UNnBeOi Ss cer: 

74 unregrster Dplkdevivmem dusk mayor; “sbd"); 
T9 return -ENOMEM; 

76} 


TX4module- anit. (vmen disk INI)? 


注 昌 上述 代码 的 第 16~30 行 ， 我 们 实际 上 文 持 两 种 IO 请 求 模 式 ， 一 种 是 make request, 53 —FPZE 
request queue. make request 的 版 本 和 朋 接 使 用 vmem disk make request © 来 处 理 bio， 而 request queue] fix 
本 则 使 用 vmem disk request 来 处 理 请 求 队列 。 


13.7.3 vmem disk 设 备 驱 动 的 block_device operations 


vmem _disk 提 供 block_device_operations 结 构 体 中 的 getgeo() 成 员 函 数 ， 代 但 清单 13.14 给 出 了 
vmem disk 设 备 驱 动 的 block device operations 结 构 体 定义 及 其 成 员 函 数 的 实现 。 


代码 清单 13.14 vmem disk 设 备 驱 动 的 block device operations 44] f Az EV, va PRL 


keraio rnt vem. diok getgeo(struce DLock device ^Ddev, struct hd geometry *Geo) 


Z1 

3 long size; 

4 struct vmem disk dev *dev = bdev-»bd disk->private data; 
S 

6 size = dev->size* (HARDSECT SIZE/KERNEL SECTOR SIZE); 
7 geo->cylinders = (size & ~0x3f) >> 6; 

8 geo->heads = 4; 

9 geo->sectors = 16; 
10 geo->start = 4; 
11 
I2 return 0; 
13] 
14 
lostatro struct block device operations vmem disk ops = 1 
16 .getgeo — vmem disk getgeo, 


17]; 


13.7.4 vmem disk 的 IO 请 求 处 理 


ftvmem disk 张 动 中 ， 通 过 和 模 芯 参数 request mode 的 方式 来 文 持 3 种 不 同 的 请 求 处 理 模 陈 以 加 深 旋 者 对 
它们 的 理解 ， 代 码 清 单 13.1$ 列 出 了 vmem disk 设 备 张 动 的 请 求 处 理 代 码 。 


代码 清单 13.1$  vmem disk 设 备 驱 动 的 请 求 处 理 函 数 


L~ 

2 * Handle an I/O request. 

wy 

dotati void vmem disk transter(struct Viei disk dev “dev, Unsigned long Sector, 
t unsigned long nsect, char *buffer, int write) 

6 { 

7 unsigned Long orfset = .Sector^KEsRNEL SECTOR SIZE; 

8 unsigned long nbytes = nsecc* KERNEL SECTOR, SIZE; 

9 

10 if ((offset + nbytes) > dev->size) { 

11 printk (KERN NOTICE "Beyond-end write ($1d $1d) Xn", offset, nbytes); 
12 return; 

123 ) 

14 if (write) 

is memcpy (dev->data + offset, buffer, nbytes); 

16 else 

17 memcpy (buffer, dev->data + offset, nbytes); 

18} 

19 
207 
21 * Transfer a single BIO. 
22. UJ 
29SLgtrco Int vnenm disk rer DLiO(SLtEUcL Viienm disk dev "dev, Struct bio DIO) 
24 { 
29 SLruct Dio vec: bwvec; 
26 SULUCE DUSC TOE ILOT 
"A OOCLOI X Secbor = Dio obi LESLTDI SOCLDOPD; 
28 
29 bio fOr seach segment(bvec, bio, weer) 1 
30 char “burier =. 110 kmap aromic( bio, Iter) 
31 vinem disk transter(dev, sector, bro Cur Dbyves (bic) >> 2, 
32 puller; Dio data dIS(DLQ) == WRITE) 
Gie SeCLOr se DIO Cur DVLeSUQDID) $e oy 
34 | bio kunmap atomic (buffer); 
35 } 

36 return 0; 

37} 

38 

3977 

TU. * The request queue version. 

A] 97 

d28LaLrlc Void vmem dLsk-request(struct request queues 4) 
431( 

44 struct request *req; 

45 Struct ilg "DIO; 

46 

47 while ((req = blk peek request(q)) != NULL) { 

48 struct viem disk dev *^dev = reg -rg disk--private data; 
49 Lf Credq-comd type i REO TYPE ESO) 1 

50 printk (KERN NOTICE "Skip non-fs request 4n"); 
51 DLE Start Pequest (req); 

D2 DIK end request all (reg, -ErDo); 

mo continue; 

54 ) 

D 

56 olk. Stare reguestiredq); 

57 Io Tor each. bio(bio, reg) 

20 vmem disk xfer bio(dev, bio); 

pe . Dik ena request all«reg, 0)7 

60 ) 

61] 

62 

63 

64/* 

65 * The direct make request version. 

06. wy 

OlSLtatrc vold vmem disk make request(struct request queue "dq, struct DIO *b10) 
681 

69 Struct wmen dick dev ^dev = g-2gqueuedatas 


70 int Status; 


pe 


T2 Status = vmem disk xfer bDio(dev; blio)? 
T3 pro endro(brio, Stdtus)j 
74] 


第 4 行 的 vmem disk transfer O SER ECSCHJRBETEI/OSRÍE. (对 于 本 例 而 言 ， 束 是 一 个 memcpy) . 23 
行 的 vmem disk xfer bio O 图 数 调用 它 来 完成 一 个 与 bio 对 应 的 便 件 操作 ， 在 完成 的 过 程 中 通过 第 29 行 的 
bio for each segment O 展开 了 该 bio 中 的 每 个 Segment。 


vmem disk make request () 直接 调用 vmem disk xfer bio O 来 完成 一 个 bio 操 作 ， 而 
vmem disk request () 则 通过 第 47 行 的 blk peek request © 先 从 request queue 拿 出 一 个 请 求 ， 再 通过 第 S7 
行 的 _rq for each bio () 从 该 请 求 中 取出 一 个 bio， 之 后 调用 vmem disk xfer bio O 来 完成 该 IO 请 求 ， 
图 13.4 朱 述 了 这 个 过 程 。 


vmem disk request():blk peek request() 


rq foreach bio():vmem disk xfer bio() 


rq for each bio():vmem disk xfer bio() 





bio for each segment): 
vmem disk transfer() 


bio for each segment(): 
vmem disk transfer() 





bio for each segment(): 
vmem disk transfer() 











图 13.4 vmem disk 的 VO 处 理 过 程 


13.8 Linux MMC AZ 


Linux MMC/SD 存 储 卡 是 一 种 典型 的 块 设备 ， 它 的 实现 位 于 drivers/mmc。drivers/mmc 下 义 分 为 card、 
core 和 host 这 3 个 子 目 录 。card 实 际 上 跟 Linux 的 块 设备 子 系统 对 接 ， 实 现 块 设备 驱动 以 及 完成 请 求 ， 但 是 具 
体 的 协议 经 过 core 层 的 接口 ， 最 终 通 过 host 完 成 传输 ， 因 此 整个 MMC 了 于 系统 的 框 染 结构 如 图 13.5 所 示 。 力 
外 ，card 目 录 除 了 实现 标准 的 MMC/SD 和 存储 卡 以 外 ， 该 目录 还 包含 一 些 SDIO 外 设 的 卡 驱动 ， 如 
drivers/mmc/card/sdio uart.c。core 有 目录 除了 给 card 提 供 接口 外 ， 实 际 上 也 定义 好 了 host 驱 动 的 框架 。 


文件 系统 


MMC/SD card 层 
( 块 设备 ) 


MMC/SD core 层 
(通信 协议 ) 


MMC/SD host 层 


13.5 Linux MMC Zt 





drivers/mmc/card/queue.cH']mmc init queue () 函数 通过 blk init queue (mmc request fn, lock) WE [f 


VK AE K ZI mmc. request fn ©) : 


int mmo init Queue (Struct mmc queue "mg, Struct mmc card. Foard; 
SOLNLOCK Lt Lock; const Char *subiiame) 


{ 


mg- guste = bLk init queue(mmco request tn, Lock); 


而 mmec request fn O PRIZE ZEE EE SMMCXT NLIS] PLZ ZERO AE PIS KR, IL KZ BET NUT] IRE BRL ZAC 


mmc queue thread () 执行 与 MMC 对 应 的 mq->issue fn (mq, req) : 


static int mmc queue thread(void *d) 


{ 


req = DIR fetch request (qd); 
mq-»mqrq cur->req = req; 
Lr {req Lh] me-magrg prev=>reg) 1 
set current state(TASK RUNNING); 
cmd. tlago = reg teq-7cmd, lagg = 07 


mq->issue fn(mq, req); 


return 0; 


对 于 存储 设备 而 言 mq-issue fn O r&Z&fRISIdrivers/mmc/card/block.cH" HJmme blk issue rq © : 


stallo Struce, mic DLE data. mme Dik alloc redgistrucb mmo card “Card, 
struct device *parent, 


SeCUtOF C SIZe9; 

bool defradqult.To;, 
const Char *subname, 
Int ares type) 


imde-queue.rssue In = mmc. blk rssue.rg; 
md->queue.data = md; 


其 中 的 mmc blk issue rw rq O 等 函数 最 终 会 调用 drivers/mmc/core/core.c 中 的 mme start req () 这 样 


的 函数 : 


Statue: Int me Dk: wesue: wg (Suruct: mmc. queue. mr. Struct request Trde) 


{ 


Greg = NMG Scare. req(card=-hose, req, (ine *) eStats), 


mmc start req ) RIER X. Wi Ahost4K3) yhost->ops->pre req () ~ host->ops->enable () . host->ops- 
>disable () . host->ops->request O SEKR PRA, X pK TKI drivers/mm/host H 5& F - 


host->ops 实 际 上 是 一 个 MMC host 操 作 的 集合 ， 对 应 的 结构 体 为 mmc host ops， 它 的 定义 如 代码 清早 
13.16 所 示 。MMC 主 机 驱动 的 主体 工作 就 是 实现 该 结 构 体 的 成 员 函 数 ， 如 drivers/mmc/host/mmc spi.c、 


drivers/mmc/host/bfin sdh.c、drivers/mmc/host/sdhcei.c 等 。 


代码 清单 13.16 mmc host ops 结构 体 


Iobrucc DR Nost ODS X 


2 es 

5 * 'enable' is called when the host is claimed and 'disable' is called 
4 * when the host is released. 'enable' and 'disable' are deprecated. 
5 

6 二 

Int (disable; (Struct mic host SNOSE); 

8 

9 ”Lb gecoptronal. Lor the lost to implement pre req and post reg n 
L0 * order to support double buffering of requests (prepare one 

El * request while another request is active). 

T2 * pre reg() Must always be followed by a post. reqi). 

1.3 ^" "DO Undo e Call- made to- pre redi. Cali. post Teg) wien 

14 * a nonzero err condition. 

15 a 

i6 vord ("POSE Meg) (struck mmo Nose. “host, aS tBUct mmo Sequest “red, 
T int err); 

15 VOLA (tore rFed)TtsSUcEUCEt mme Nost Nost; SUUS mmocsedguest Treg; 
19 DOOL 19- Tirst req)? 
20 void (^reauesrt)Yistruct mme -host nos SC Ucr Mme request, reg); 
2l s 
22 * Avoid calling these three. functions too often or in a "fast path", 
23 * since underlaying controller might implement them in an expensive 
24 * and/or slow way. 
Zo 5 
26 * Also note that these functions might sleep, so don't call them 
21 * in the atomic contexts! 
2D m 
29 -Returny Values. bor the get Xo cagllbDaoX SmBouko- De: 
30 D Ofor a read/write card 

4 d LOY a read-only Card 

32 3 -ENOSYS when not supported (equal to NULL callback) 

93 m or a negative errno value when something bad happened 

34 " 

Gis Return. Values for Che get cd.callback Should be 

36 ^ Ofor a absent card 

34 m" lfor a present card 

Sie X -ENOSYS when not supported (equal to NULL callback) 

5.9 ^ or a negative errno value when something bad happened 


40 
41 
42 
43 
44 
45 
46 
4] 
48 
49 
50 
Od 
De 
5:3 
54 
S) 
56 
97 
56 
59 
60 
61 
62 
cone: 


T 


void (moer TOSES rnet- Amo TOSE SDOSt Struct. MMe 05 7 509)7 
Live ("get ro) (Struct. mmo MOst FROS)? 
Lit (^get CO) (ST CUCL, MMO- NOSE. TNOSTI? 
void (^endble SONO. mro (Struce muc-hosu not Tine euable); 


A optional callback for HC quirrks */ 
STO (nrbt Card) (struct mmo nost *DOSLt, struck mmo card *card); 


LE (otart S19nglL voltage Switch) (struct mmc nost “host, UU mnc: LOS ros); 


p* Check if the card 2s. pulding datio] ow *7 
To (Card. Usy) (SCEuet MMO Host, “hosts; 


/* The tuning command opcode value is different for SD and eMMC cards *7 
LINE (^execqbe CUNEO) {OL UCE: mme host *host, 195209cOOXB2). 


/* Prepare HS400target operating frequency depending host driver */ 


Tt (^prepasre no400 Tunang) (struct mmc host “nosis Struct MMe los er 站: 

Live (Select drive SLrenoth Un roned int Max dtr, Smt-hDost dry; Ine are: cw) 
Toad (pw reseujXstruco mmeo Nost ns) 

void (^Oandgsevyent)istsuoct mmc host SHOSTI 


H F HAKS BLSoC WA ik HJ MMC/SD/SDIOF fill 45 2SDHCI (Secure Digital Host Controller 
Interface) , PUL Zi Be jH drivers/mme/host/sdhci.cJkay, (RB Hr d e ye n] bt — 2 EF 


drivers/mmce/host/sdhci.cx€ Y. HJ drivers/mmc/host/sdhci-pltfm.cHz£ZE . 


13.9 mz 


Bus BIUOTRTEZJI X 5e AE CS TERA AIA], TAT SLA frequest queue. request. bioS— Z& 
列 数 据 结构 。 在 整个 块 设备 的 /O 操 作 中 ， 叶 和 罕 始 终 的 束 是 “请 求 " 字符 设备 的 IO 操作 则 是 直接 进行 不 绕 
棕 ， 其 设备 的 IO 操作 会 排队 和 整合 。 

驱动 的 任务 是 处 理 请 求 ， 对 请 求 的 排队 和 整合 由 LO 调度 算法 解决 ， 因 此 ， 块 设备 驱动 的 核心 束 是 请 
求 处 理 函 数 或 “制造 请 求 ”函数 。 

尽管 在 块 设备 驱动 中 仍然 存在 block device operations 结 构 体 及 其 成 员 函 数 ， 但 不 再 包含 读 写 类 的 成 员 
函数 ， 而 只 是 包含 打开 、 释 放 及 LO 控制 等 与 具体 读 写 无 关 的 函数 。 

世 设 备 弛 劲 的 结构 相对 复杂 ， 但 圣 运 的 是 ， 块 设备 不 像 字符 设备 那样 包罗 AR, "OB TS LE T£ f vx 
备 ， 而 且 驱 动 的 主体 已 经 由 Linux 内 核 提 供 ， 人 针对 一 个 特定 的 便 件 系统 ， 驱 动工 程 师 所 涉及 的 工作 往往 只 
是 编写 极其 少量 的 与 便 件 平台 相关 的 代 但 。 


1495 ” Linux 网络 设备 驱动 
本 章 导 读 


网 络 设备 是 完成 用 尸 数 据 包 在 网 络 媒介 上 友 壕 和 接收 的 设备 ， 它 将 上 层 协 议 传 违 下 来 的 数据 包 以 特定 
的 如 介 访问 控制 方式 进行 友 送 ， 并 将 接收 到 的 数据 包 传 好 给 上 层 协 议 。 


与 字符 设备 和 块 设备 不 同 ， 网 络 设备 并 不 对 应 于 /dev 目 录 下 的 文件 ， 应 用 程序 最 终 使 用 套 接 字 完成 与 
网 络 设备 的 接口 。 因 而 在 网 络 设备 号 上 并 不 能 体现 出 “一 切 都 是 文件 "的 思想 。 


Linux 系 统 对 网 络 设备 驱动 定义 了 4 个 层次 ， 这 4 个 层次 为 网 络 协议 接口 层 、 网 络 设备 接口 层 、 提 供 实 
际 功 能 的 设备 驱动 功能 层 和 网 络 设备 与 媒介 层 。 


14.1 廊 讲解 Linux 网 络 设备 驱动 的 层次 结构 ， 搬 述 其 中 4 个 层 饮 各 目的 作用 以 及 它们 是 如 何 协 同 合作 以 
实现 问 下 驱动 网 络 设备 价 件 、 同 上 提供 数据 包 收 友 接 口 能 力 的 。 


14.2~14.8 市 主要 讲解 设备 驱动 功能 层 的 各 主要 疯 数 和 数据 结构 ， 包 括 设 备注 册 与 注销 、 设 备 人 切 始 
人 化、 数据 包 收 发 函数 、 打 开 与 释放 函数 等 ， 在 分 析 的 基础 上 给 出 了 抽象 的 设计 模板 。 


14.9 节 介绍 DM9000 网 卡 的 设备 驱动 及 其 在 具体 开 友 板 上 的 移植 。 


14.1 Linux 了 网 络 设备 驱动 的 结构 


Linux 网 络 设备 张 动 程序 的 体系 结构 如 图 14.1 所 示 ， 从 上 到 下 可 以 划分 为 4 属 ， 依 次 为 网 络 协议 接口 
屋 、 网 络 设备 接口 技 、 所 供 实际 功能 的 设备 驱动 功能 层 以 及 网 络 设备 与 烘 介 层 ， 这 4 层 的 作用 如 下 所 示 。 


1) 网 络 协 议 接 口 层 同 网 络 层 协议 提供 统一 的 数据 包 收 发 接口 ， 不 论 上 层 协议 是 ARP， 还 是 卫 ， 都 通 
过 dey queue xmit OO) 图 数 发 送 数据 ， 并 通过 netif rx O 函数 接收 数据 。 这 一 层 的 存在 使 得 上 层 协议 独立 
于 具体 的 设备 。 


2) 网 络 设备 接 口 层 问 协 议 接 口 层 近 供 统 一 的 用 于 插 述 具体 网 络 设备 属性 和 操作 的 结构 体 net_device， 
该 结构 体 是 设备 驱动 功能 层 中 各 函数 的 容器 。 实 际 上 ， 网 络 设备 接口 层 从 宏观 上 规划 了 其 体操 作 人 硬件 的 设 
备 驱 动 功 能 层 的 结构 。 


3) 设备 驱动 功能 层 的 各 函数 是 网 络 设 备 接口 层 net device 数 据 结构 的 具体 成 员 ， 是 驱使 网 络 设 备 价 件 
完成 相应 动作 的 程序 ， 它 通过 hard start xmit O 国 数 局 动 肥 大 操作 ， 并 通过 网 络 设备 上 的 中 断 甬 肥 接 收 
操作 。 

4) 网 络 设备 与 媒介 层 是 完成 数据 包 发 运 和 接收 的 物理 实体 ， 包 括 网 络 适 配 占 和 具体 的 传输 媒介 ， 网 


络 适 配器 被 设备 驱动 功能 层 中 的 函数 在 物理 上 了 驱动。 对 于 Linux 系 统 而 言 ， 网 络 设备 和 媒介 都 可 以 是 虚拟 
的 。 


数据 包 发 送 数据 包 接收 
dev queue xmit () netif rx () 


网 络 协议 接口 层 


网 络 设备 接口 层 


dido 设备 驱动 功能 层 


网 络 物理 设备 媒介 网 络 设备 与 媒介 层 





图 14.1 Linux 网 络 设备 驱动 程序 的 体系 结构 


在 设计 具体 的 网 络 设 备 驱 动 程序 时 ， 我 们 需要 完成 的 主要 工作 是 编写 设备 驱动 功能 层 的 相 天 函数 以 十 
元 net_device 数 据 结 构 的 内 容 并 将 net_device 注 册 入 内 核 。 


14.1.1 网 络 协议 接口 层 


网 络 协 议 接 口 层 最 主要 的 功能 是 给 上 层 协 议 提供 透明 的 数据 包 发 运 和 接收 接口 。 当 上 层 ARP 或 IP 需 要 
有 发送 数据 包 时 ， 它 将 调用 网 络 协议 接口 层 的 dev queue xmit O 函数 友 送 该 数据 包 ， 同 时 需 传 递 给 该 函数 
一 个 指 同 struct sk _ buf 数据 结构 的 指针 。dev_ queue xmit () 图 数 的 原型 为 : 


int dev queue SEE 


EH, LEON a Re COR IE [RInetif rx O 水 数 传 递 一 个 struct sk buft 数 据 结构 的 指针 来 完 
EX. netif rx ©) 函数 的 原型 为 : 


ine meti tx(Structe. Sk DULL *SEDOS 


sk buff 结 构 体 非常 重要 ， 它 定义 于 includelinux/skbuffh 文 件 中 ， 含 义 为 “ 套 接 字 绥 冲 区 ”， 用 于 在 Linux 
网 络 子 系统 中 的 各 层 之 间 传 递 数 据 ， 是 Linux 网 络 子 系统 数据 传递 的 “中 枢 神 经 ”。 


当 及 这 数 据 包 时 ，Linux 内 核 的 网 络 处 理 个 其 必须 建立 一 个 包 人 要 传输 的 数据 包 的 sk_buff， 然 后 将 
sk _bufhiitcer RR, SJR fEsk_buff UH JB DK Efe Sce oA. EE, Ade e A 
络 媒介 上 接收 到 数据 包 后 ， 它 必须 将 接收 到 的 数据 转换 为 sk_buff 数 据 结 构 并 传递 给 上 层 ， 各 层 剥 去 相应 的 
协议 头 直 至 交 给 用 户 。 代 码 清单 14.1 列 出 了 sk_ buft 结 构 体 中 的 几 个 关键 数据 成 员 以 及 描述 


代码 清单 14.1 sk buf 结构 体 中 的 几 个 关键 数据 成 员 以 及 描述 


1/** 

z. 078 SUEHOLt Sk DULI = Socket Düs£er 

Qo @next: Next buffer in list 

4 * @prev: Previous buffer in list 

E i @len: Length of actual data 

o = Gdata len: Data length 

qom @mac len: Length of link layer header 

e Chdr len? writable header length of cloned ‘skb 

S x @csum: Checksum (must include start/offset pair) 

I0 = @csum start: Offset from skb->head where checksumming should start 
lg ~ Gcsum offset: Offset from csum start where checksum should be stored 
d. m priority: Packet queueing priority 

I wy @protocol: Packet protocol from driver 

l4 5 @inner protocol: Protocol (encapsulation) 

LS = @inner transport header: Inner transport layer header (encapsulation) 
lo * Ginner network header: Network layer header (encapsulation) 
Le 和 @inner mac header: Link layer header (encapsulation) 

lg GLransport header: Transport layer header 

19 ~ (network header: Network layer header 
20 * @mac header: Link layer header 
zd. > @tail: Tail pointer 
Z2. 7 Qend: End pointer 
23 * ahead: Head of buffer 
24 * @data: Data head pointer 
gs wes 
26 
2 SEEUCR SR DULL 4 
28 /* These two members must be first. */ 
29 Struct sk Durr *next; 
30 Struce Sk burt *prev; 
24. 
32 P 
33 unsigned int len, 


34 data Len; 


AU | ulo mac len, 


36 has len; 

31 Pa 

38 . u32 BLLOrLEV, 

29 Pd 

40 |  beló protocol; 

41 

42 

43 

44 | | belo inner protocol; 

45 | ulo inner transport header; 
46 | ulo inner network header; 
4] | ulo inner mac header; 

48 | | ul6o transport header; 

49 | ulo network header; 

20 | ulo mac header; 

21 /* These elements must be at the end, see alloc skb() for details.  */ 
De ck burt data t Gaul. 

99 sk DUEL. data t end; 

54 unsigned char *head, 

39 *data; 

26 

ON 


如 图 14.1 所 示 ， 无 其 值得 注 意 的 是 head 和 end 指 同 绥 剖 区 的 头 部 和 尾部 ， 而 data 和 tail 指 癌 实 际 数据 的 头 
部 和 尾部 。 每 一 层 会 在 head 和 data 之 间 项 到 协议 头 ， 或 痢 在 tail 和 end 之 间 读 加 新 的 协议 数据 。 





Se S E odd spun 

struct s k buf Ei p 3J. 部 zi [i] 
unsigned char *head; 
unsigned char *data; 


unsigned char *tail; 


unsigned char M uu 








尾部 空间 











图 14.2 sk bufff 和 head、data、taill、end 指 针 


下 面 我 们 来 分 析 套 接 字 组 冲 区 涉及 的 操作 函数 ，Linux 套 接 字 缓冲 区 支持 分 配 、 释 放 、 变 更 等 功能 函 
BL o 


(1) 分 配 
Linux AZ FH Fp RU zr Zh CEP] BL 208 : 


struct Sk butt “alloc skb (unsigned int len; gip b Priority); 
Suruct Sk DUIL dev alloc sko(uns19oned anc Len)? 


alloc skb O PRA) AC SEB Pr BH DCRI— PAX, Balen VATA LX A ZS TBI AZ, 388 
LILI CACHE BYTES-£ 5 OST ARMZJ32) 对 齐 ， 参 数 priority 为 内 存 分 配 的 优先 级 。dev alloc skb © 
函数 以 GFP_ATOMIC 优 先 级 进行 sSkb 的 分 配 ， 原 因 是 该 函数 经 和 沼 在 设备 驱动 的 接收 中 汤 里 被 调用 。 


(2) 释放 


Linux 内 核 中 用 于 释放 僚 接 字 绥 冲 区 有 的 函数 有 : 


ee 

VOLO uev R&Iree OkO C UC SE DULL eK) 
vord dev -NEIpee SED Xrqiscruct Sk burr tsk); 
vonddev tree sko any (Struct sk burr *skb); 


上 述 函 数 用 于 释放 被 alloc_ skb O 函数 分 配 的 套 接 字 缓冲 区 和 数据 缓冲 区 。 


Linux 内 核 内 部 使 用 kree skb ©) 函数 ， 而 在 网 络 设备 驱动 程序 中 则 最 好 用 dev kfree skb © 、 
dev_kfree_skb_irq © 或 dev kfree skb any O 函数 进行 套 接 字 绥 冲 区 的 释放 。 其 中 ，dev_kfree skb © PW 
数 用 于 非 中 断 上 下 文 ，dev_ kfree skb irq O 冰 数 用 于 中 汤 上 下 文 ， 而 dev_kfree skb any () RACE Wr 
和 非 中 断 上 下 文中 皆 可 采用 ， 它 其 实 是 做 一 个 非常 简单 的 上 下 文 判 晰 ， 然 后 再 调用 
”dev kfree skb irq OO 或 者 dev kfree skb OO ， 这 从 其 代码 的 实现 中 也 可 以 看 出 : 


VOLO... dev Kiree skb any(struct sk DUIL ^Skb, enum SED Iree reason reason) 
{ 
Xp sti, ag) LI orge: dicated) 
“ov KEES SEU -ITIS kD; Teaco) *s 
else 
dev kfree skb(skb); 
} 
(3) 40 


在 Linux 内 核 中 可 以 用 如 下 函数 在 绥 冲 区 尾部 增加 数据 : 


unsigned Char Foke Puc rrue sk DULE “Sk, Unsroned ugs denos 


它 会 导致 skb->tail 后 移 len (skb->tail+=len) ， 而 skb->len 会 增加 len 的 大 小 〈skb->len+=len) . 3Hi4$, Æ 
设备 张 动 的 接收 数据 处 理 中 会 调用 此 函数 。 


在 Linux 内 核 中 可 以 用 如 下 函数 在 绥 冲 区 开 尖 增加 数据 : 


üUnergnDed oer ee 


导致 skb->data 亲 移 len (skb->data-=len) ， 而 skb->len 会 增加 len 的 大 小 Cskb->lent=len) . -512 P 
数 的 功能 完成 相反 的 函数 是 skb pull O ， 它 可 以 在 缓冲 区 开头 移 除数 据 ， 执 行 的 动作 是 skb->len-=len、 


skb->datat=len. 


对 于 一 个 空 的 缓冲 区 而 言 ， 调 用 如 下 函数 可 以 调整 缓冲 区 的 头 部 : 


Static Inline Volo SkD reservetsvUruect Sk DUEE WNSED;. anu, en); 


它 会 将 skb->data 和 skb->tail 同 时 后 移 len， 执 行 Skb->data+=len、skb->tail+=len。 内 核 里 存在 许多 这 样 的 
ARAH: 


skb-alloc skb(lentheadspace, GFP KERNEL); 


SKD reserve(sSKD, headspace); 

SKD putto kD LENI]? 

memcpy rIromfsetskD-»2odata,datea,len); 
pass to mM DrEOlcece isk); 


上 述 代 三 先 分 配 一 个 全 新 的 sk bu 仔 ， 接 独 调 用 skb reserve O 膳 出头 部 空间 ， 之 后 调用 skb put O 腾 
出 数据 空间 ， 然 后 把 数据 复制 进来 ， 最 后 把 sk _bu 仔 传 给 协议 栈 。 


14.1.2 网络 设 备 接 口 层 


网 络 设备 接口 层 的 主要 功能 是 为 干 变 万 化 的 网 络 设备 定义 统一 、 抽 和 象 的 数据 结构 net device 结 构 体 ， 
以 不 变 应 万 变 ， 实 现 多 种 使 件 在 软件 层次 上 的 统一 。 


net_device 结 构 体 在 内 核 中 指 代 一 个 网 络 设备 ， 它 定义 于 include/linux/netdevice.h 文 件 中 ， 网 络 设备 驱 
动 程序 只 和 需 通 过 填 序 net_device 的 其 体 成 员 并 注册 net_device 即 可 实现 人 硬件 操作 函数 与 内 核 的 挂 接 。 


net device 是 一 个 巨大 的 结构 人体， 定义 于 include/linux/netdevice.h 中 ， 包 含 网 络 设 备 的 属性 描述 和 操作 
接口 ， 下 面 介绍 其 中 的 一 些 关 键 成 员 。 


(1) 全 局 信息 


char name[IFNAMESIZ]; 


name 是 网 络 设 备 的 名 称 。 
(2) 便 件 信息 


unsigned long mem end; 
unsigned long mem start; 


mem start 和 mem _ end 分别 定 义 了 设备 所 使 用 的 共享 内 存 的 起 始 和 结束 地 址 。 


unsigned long base addr; 
unsigned char irg; 
ünscgned Char qx port 
unsigned char dma; 


base_ addr 为 网 络 设备 LV/O 基 地 址 。 
irq7J i d 15 H HJ FP Br e 


if portfR XE 9m Ei, BME Sm Hx es WI. "DIR I x 
IF PORT 10BASE2 ( 同 轴 电 统 ) MIF PORT IOBASET ONR) ， 则 可 使 用 该 字段 。 


dma 指 定 分 配给 设备 的 DMA 通 道 。 
(3) 接口 信息 


unsigned short hard header len; 


hard header lenié M24 dE MIFARE, EARNE RRRA, VA RC 7 J 


ETH HLEN， 即 14。 


unsigned short type; 


typeze fz L1) I FSS 7 , 


unsigned mtu; 


mtu 指 最 大 传输 单元 (MTU) 。 


unsigned char “dev addr; 


用 于 存放 设备 的 便 件 地 址 ， 张 动 可 能 提供 了 设置 MAC 地 址 的 接口 ， 这 会 导致 用 户 设 置 的 MAC 地 址 等 
存 入 该 成 员 ， 如 代码 清单 14.2driversmnetethernetmoxa/moxart_ etherc 中 的 moxart set mac address () 函数 所 


不 。 
代码 清单 14.2 set mac address () 函数 


lstatric 1nt moxart set mac address (struct net device. *ndev, vord *addr) 
2 1{ 


SLEHOLC SOCKaCdr *aQgoOPess = addr; 

B ix (Lis valid etuer addr (address--sa datae). 

6 return -EADDRNOTAVAIL; 

7 

8 memcpy ndev=>dev ador, address=>sa data, ndev--aodrÉ len); 
9 Moxart update mac address (ndev) ; 

10 

11 peruras U; 

12] 


上 述 代码 完成 了 memcpy ©) 以 及 最终 便 件 上 的 MAC 地 址 变更 。 


unsigned short flags: 


flags 指 网 络 接口 标志 ， 以 IFF_〈Interface Flags) 开头 ， 部 分 标志 由 内 核 来 管理 ， 其 他 的 在 接口 初始 化 
时 被 设置 以 说 明 设 备 接口 的 能 力 和 特性 。 接 口 标志 包括 IFF_ UP ( 当 设 备 被 激活 并 可 以 开始 发 送 数据 包 
时 ， 内 核 设置 该 标志 ) . IFF AUTOMEDIA (设备 可 在 多 种 媒介 间 切 换 ) ~ IFF BROADCAST (人 允许 广 
播 ) 、IFF DEBUG (调试 模式 ， 可 用 于 控制 printk 调 用 的 详细 程度 ) 、IFF LOOPBACK (回环 ) 、 

IFF MULTICAST (FHE) ~ IFF NOARP 〈 接 口 不 能 执行 ARP) 和 IFF POINTOPOINT 接口 连接 到 
点 到 点 链 路 ) 等 。 


(4) WC TRIE eh BL 


const SLIUOL net device Ops ^neutdev Ops; 


区 结构 体 是 网 络 设备 的 一 系列 硬件 操作 行 数 的 集合 ， 它 也 定义 于 include/linux/netdevice.h 中 ， 这 个 结构 
体 很 大 ， 代 码 清单 14.3 列 出 了 其 中 的 一 些 基础 部 分 。 


代码 清单 14.3 net device ops 结 构 体 


Lobrmet net device ops, A 


2 TT (“ndo TALC (Struck nec device dev) 

3 void (^ndo Unn) (SETCE net device *dev)s 

4 Lt (^ndo Open) (rine: net Jevice dev) 

5 Lit (endo stopy (sb ruce net device: "dev 

6 = E -E (endo Start Xxmrb) StrUuct OR DUL Ask, 

E, Struc” Det device dev). 

8 ul6 (^ndo selece queus)istruct mer. device *dgev, 

9 Struct Sk DUI vex 

10 VOL “ACCS. EL 

dm select quede Callback t fsliback 7 
12 void (7 nde: change re Lage) (Seeuck men device: dev, 
13 int flags) 7 

14 void (TN eut rx Mote). (SErucr nes device "dew y 

15 RORE (endo SOL Mac Soress) (Suruel net “device *dev, 
16 void. *addar); 

TA int (^ndo validate addr) (Struct. net device. *5dgewv); 
18 THE |^ndo do TOCEL) (Struce Neb. dewkce -*dev, 

19 Struct 于 本 下 全 二 UTI. ant: Xo. 
20 
之 小] 


ndo open O 函数 的 作用 是 打开 网 络 接口 设备 ， 获 得 设备 需要 的 1/O 地 址 、IRQ、DMA 通 道 等 。 
stop O 图 数 的 作用 是 俘 止 网 络 接口 设备 ， 与 open O BACHE AAR 


Ent “nde ee 


ndo start xmit © 函数 会 启动 数据 包 的 发 送 ， 当 系统 调用 驱动 程序 的 xmit 函 数 时 ， 需 要 向 其 传 入 一 个 
sk buft 结 构 体 指针 ， 以 使 得 驱动 程序 能 获取 从 上 层 传递 下 来 的 数据 包 


vord (DOO tx Lrmeout)dstbucc- Net device: *dgdev). 


SAE ELA ACTA FET INT, ndo tx timeout O RIALS AES HI. HARARE aA LIKE 
ENC EET Jr 29] B ES T rt HR RSH) 28 t BITE TAS e 


SUCLUCE met device Seats (rdo Det Staus) dtsbtruct net device 09v) 


ndo get stats ) PAROS 33 Pd 28 Vc HAS IS, ERE Anet device stats 结 构 体 指针 。 
net device statsZa TJ prr. STEARNS TR Ao AIK AGAS LAC. TECH ARS. VEM 
14.8711. 


Ine "endo: do TOCE (SELUCe. net dewvsce “Oey, O rac IIDegq 355. LTC. Cm); 
Ine, (Ando. See -CONTEG) Struct net device “dev, SUCPUCL 2imap map); 
int Indo see mac- address) (Strucu. neu device ?^dev, vord. addr); 


ndo do ioctl © 函数 用 于 进行 设备 特定 的 VO 控制 |。 


ndo set config O 函数 用 于 配置 拔 口 ， 也 可 用 于 改 杰 设备 的 IO 地 址 和 中 新 号 。 
ndo set mac address O 函数 用 于 设置 设备 的 MAC 地 址 。 
除了 netdev_ ops 以 外 ， 在 net_ device 中 还 存在 类 似 于 ethtool ops. header ops 这 样 的 操作 集 : 


GODS. truet GENEOOL Ops “ehooL ups 
const o strucr hedgder ops “header: Oper 


ethtool ops n KASHF T [RJethtool LAWN A-ha 493263906] Dy, ethtooltetk SIE I Rak ah ee P8 
REJJ, Bete ALinux 23 JT AA ee BA R p PET PRE BREA ZR ORIN. BANAK 


header ops 对 应 于 便 件 头 部 操作 ， 主 要 是 完成 创建 便 件 头 部 和 从 给 定 的 sk_ bu 他 分 析出 便 件 头 部 等 操 
(led 


(5) 辅助 成 员 


unsqsgnmed long: trans Start 
unsigned. long last Xx; 


trans startid ax dg Je We BL AR AKA JST JH], last rX 记 孙 最 后 一 次 接收 到 数据 包 时 的 时 间 惟 ， 这 
两 个 时 间 惟 记录 的 都 是 jifies， 张 动 程 序 应 维护 这 两 个 成 员 。 


通 第 情况 下 ， 网 络 设备 驱动 以 中 断 方式 接收 数据 包 ， 而 poll controller €) 则 采用 纯 轮 询 方 式 ， 夯 外 一 
种 数据 接收 方式 是 NAPI (New API) ， 其 数据 接收 流程 为 "接收 中 断 来 临 一 关闭 接收 中 断 一 以 轮 询 方式 接 
收 所 有 数据 包 直 到 收 衬 一 开局 接收 中 断 一 接收 中 断 来 临 .2 内核 中 括 供 了 如 下 与 NAPI 相 天 的 API; 


Stab TULIN word metre nap. dod struct meu. dcevroe- “dev, 
Struct napi: Struct “Nap, 
Inu QADOILP (Struct Nap S TUCE T. GINE), 
int weight); 

Stace: Inline Vou etC maps del[fstruct nap StEUODP- napy 


以 上 两 个 函数 分 别 用 于 初始 化 和 移 除 一 个 NAPI，netif napi add © 的 poll 参 数 是 NAPI 要 调度 执行 的 
FE W) RKI Z o 


Static nine Vod mapi enables truct napi Susucc m5 
Static thee VoL snap disable (Slruce Napping Serucr ny; 


以 上 两 个 函数 分 别 用 于 使 能 和 花 止 NAPI 调 度 。 
Sa 


该 函数 用 于 检查 NAPI 是 否 可 以 调度 ， 而 napi schedule O PA ZH] T Va Rz sedg sc pim. Hm. 


Statro nline Vod Tapi- SehedguletsODUCU Nap, Sto "nj; 


在 NAPI 处 理 完 成 的 时 候 应 该 调用 : 


人 


14.1.3. ved UJ] JI Be 


net device 结构 体 的 成 员 〈 属 性 和 net device ops 结 构 体 中 的 函数 指针 ) FMI 3A 2/] 1 Be EA, T 4. 
体 的 数值 秃 数 。 对 于 有 具体 的 设备 xxx， 工 程 师 应 访 编 写 相 应 的 说 备 驱 动 功能 层 的 图 数 ， 这 些 函 数 形 如 


xxx open () ~ xxx stop () ~ xxx tx (O 、XXX hard header (Ù) 、xxx get stats () 和 XXX tx timeout () 


^E 
wj o 


H F 94125 25036 BL EP] AC n] EAT SL AC, ERES Be s AY 3 — 1 3E SEA R ce PDT PR A, TE 
vo ix BUS EE ee BY Bs L2 Pe 26 ERM, AE n qe xxx interrupt O 和 xxx rx O KZG gj 
i EPRE ASEELLE, Je DU e se CS LIT ^E X CP RE S68 E JERSE SAR LE. 


14.2~14.8 节 将 对 上 述 函 数 进行 详细 分 析 并 给 出 参考 设计 模板 。 


对 于 特定 的 设备 ， 我 们 还 可 以 定义 相关 的 私有 数据 和 操作 ， 并 封装 为 一 个 私有 信息 结构 体 
xxx_private， 让 其 指针 赋值 给 net_device 的 私有 成 员 。 在 xxx_private 结 构 体 中 可 包含 设备 的 特殊 属性 和 操 
作 、 自 旋 锁 与 信号 量 、 定 时 器 以 及 统计 信息 等 ， 这 都 由 工程 师 自 定义 。 在 驱动 中 ， 要 用 到 私有 数据 的 时 
候 ， 则 使 用 在 netdeviceh 中 定义 的 接口 ， 


otario online vold.*8ueudeév Priv (CONSEC Struct net device ^dev); 


Lt an E 8K 2) drivers/net/ethernet/davicom/dm9000.cH'Jdm9000 probe €) 函数 中 ， 使 用 
alloc etherdev (sizeof (struct board info) ) 分 配 网 络 设备 ，board info t~ T AAN cte IN A 
Ga, EHAE EK CR n] fe pe AA aa, WAN: 


static int 
om7000. Stare XIDLCtCSLrUuct sk butt “okD; SUDUDOL net device dev) 
{ 

unsigned long flags; 

board anro. Ct *db = nerdey privy (dev); 


14.2 ”网 络 设 备 驱 动 的 注册 与 注销 


网 络 设备 驱动 的 注册 与 注销 由 register netdev () 和 unregister netdev O 函数 完成 ， 这 两 个 函数 的 原型 
为 : 


inc £99gl5ter netdevistruct net devroe ^Oevij 
void unregister netdev(struct net device *dev); 


这 两 个 函数 都 接收 一 个 net_device 结 构 体 指针 为 参数 ， 可 见 net device 数 据 结构 在 网 络 设备 张 动 中 的 核 
心地 位 。 


net_device 的 生成 和 成 员 的 赋值 并 个 一 定 要 由 工程 师 杀 目 动 手 逐 个 完成 ， 可 以 利用 下 面 的 宏 帮 助 我 们 
JR B: 


#define alloc netdev(sizeof priv, name, setup) \ 
alloc metdev mogs(sizeoL priv, name, setup, Ly L) 
#define alloc etherdev(sizeof priv) alloc etherdev mq(sizeof priv, 1) 
#define alloc etherdev mq(sizeof priv, count) alloc etherdev mqs(sizeof priv, 
count; count) 


alloc netdev 以 及 alloc_etherdev 宏 引用 的 alloc_ netdev mqs () 函数 的 原型 为 : 


SLIUCEL Det device *alloc necdey mgs(int S1ze0f priv, const char ^name, 
void Se (SLEUCL net device =] 
unsigned int txqs, unsigned int rxqs); 


alloc netdev mqs O PAZ EJ — net. device As, TAC A P BOT XR P ZAE 5887 
参数 为 设备 私有 成 员 的 大 小 ， 第 二 个 参数 为 设备 名 ， 第 三 个 参数 为 net_device 的 setup O wate, oh 
四 、 五 个 参数 为 要 分 配 的 发 送 和 接收 子 队 列 的 数量 。setup O 函数 接收 的 参数 也 为 struct net. device 指 针 ， 
用 于 预 置 net _ device 成员 的 值 。 


free netdev () 完成 与 alloc enetdev () 和 alloc etherdev O 函数 相反 的 功能 ， 即 释放 net device 结 构 体 
HJ e| ZA: 


vord Tree Me ee neu device dev) 


net_device 结 构 体 的 分 配 和 网 络 设 备 驱 动 的 注册 和 需 在 网 络 设 备 驱 动 程序 初始 化 时 进行 ， 而 net_device 结 
构 体 的 释放 和 网 络 设备 驱动 的 注销 在 设备 或 驱动 修 移 除 的 时 低 执 行 ， 如 代码 清和 蛙 14.4 所 示 。 


代码 清 和 早 14.4 ”网 络 设备 驱动 程序 的 注册 和 注销 


LStdtic LNG xx PeG1 ster (void) 

Z1 

T ud 

4 /* iinet qdevice 结 构 体 并 对 其 成 员 赋 值 */ 
人 


6 if (xxx dev == NULL) 

7 /* Ainet devicekik */ 

8 

9 /* 注册 net device 结 构 体 */ 
10 if ((result = register netdev(xxx dev))) 
11 
12} 
13 
l4static void xxx unregister (void) 
14 
16 


17 /* 注销 Net device 结 构 体 */ 

18 unregister netdev(xxx dev); 
19 /* 释放 net device 结 构 体 */ 

20 Tree. netdev(xxx dev); 

21] 


14.3 WIZ ee eH 
网 络 设 备 的 初始 化 主要 需要 完成 如 下 几 个 方面 的 工作 。 
进行 硬件 上 的 准备 工作 ， 检 查 网 络 设备 是 否 存在 ， 如 果 存在 ， 则 检测 设备 所 使 用 的 硬件 资源 。 
:进行 软件 接口 上 的 准备 工作 ， 分 配 net_device 结 构 体 并 对 其 数据 和 函数 指针 成 员 赋 值 。 


获得 设备 的 私有 信 有 指针 并 初始 化 各 成 员 的 什 。 如 末 私 有 信 且 中 包括 目 旋 锁 或 信号 量 等 并 及 或 同步 
届 制 ， 则 需 对 其 进行 初始 化 。 


对 net device 结 构 体 成 员 及 私有 数据 的 赋 信 都 可 能 需要 与 便 件 初始 化 工作 协同 进行 ， 即 便 件 检测 出 了 
相应 的 人 资源， 需要 根据 检 调 结 来 填充 net_ device 结 构 体 成 员 和 私有 效 据 。 


网 络 设备 驱动 的 初始 化 函数 合板 如 代码 清单 14.3 所 示 ， 有 其 体 的 设备 张 动 初始 化 函数 并 不 一 定 完 全 和 本 
模板 一 梓 ， 但 其 本 质 过 程 是 一 致 的 。 


代 但 清单 14.5 ”网络 设备 张 动 的 初始 化 函数 合板 


Ivoid xxx anit (Struct net device *dev) 


3 /* 设备 的 私有 信息 结构 体 */ 


SULUCE. XXXx Priv “Driv; 





S 
6 /* 检查 设备 是 否 存在 和 设备 所 使 用 的 硬件 资源 */ 
7 xxx hw init(); 

8 

9  /* 初始 化 以 太 网 设备 的 公用 成 员 */ 
se 


12  /* 设置 设备 的 成 员 函 数 指针 */ 

ee = &XxXx netdev ops; 
14 dndeve-cetntool Ops — &XXX ethtool ops; 
LS. deve^watchdog timeo = pimeour; 





17 /* 取得 私有 信息 ， 并 初始 化 它 */ 
ee 
19 ... /* 初始 化 设备 私有 数据 区 */ 





上 述 代码 第 7 行 的 xxx_hw_init《〈) 函数 完成 的 与 便 件 相关 的 初始 化 操作 如 下 。 


- 探 铀 xxx 网 络 设 备 是 合 存 和 在。 探测 的 方法 闫 似 于 数学 上 的 “ 反 证 法 ”， 即 对 假说 存在 设备 XXXx， 访 问 翅 
设备 ， 如 来 设备 的 表现 与 预期 一 怪 ， 束 确定 设备 存在 ; 否则， 假设 错误 ， 设 备 xxx 不 存在 。 


:探测 设备 的 有 具体 便 件 配置 。 一 些 设备 驱动 编 与 得 非 间 通用 ， 对 于 同类 的 设备 使 用 统一 的 驱动 ， 我 们 
南 要 在 初始 化 时 探 负 设 备 的 具体 型 亏 。 太 外， 即便 是 同一 设备 ， 在 使 件 上 的 配置 也 可 能 不 一 样 ， 我 们 也 可 
以 探测 设备 所 使 用 的 使 件 资源 。 


:申请 设备 所 需要 的 硬件 资源 ， 如 用 request region O 函数 进行 /O 病 口 的 申请 等 ， 但 是 这 个 过 程 可 以 


放 在 设备 的 打开 函数 xxx open ©) 中 完成 。 


14.4 网 络 设备 的 打开 与 释放 
网 络 设备 的 打开 函数 需要 完成 如 下 工作 。 
使 能 设备 使 用 的 人 硬件 资源 ， 申 请 IO 区 域 、 中 断 和 DMA 通 道 等 。 
调用 Linux 内 核 提 供 的 netif start queue O 函数 ， 激 活 设备 发 送 队 列 。 
网 络 设 备 的 关闭 函数 需要 完成 如 下 工作 。 
-调用 Linux 内 核 提 供 的 netif stop queue O 函数 ， 停 止 设备 传输 包 。 
:释放 设备 所 使 用 的 IO 区 域 、 中 断 和 DMA 资 源 。 
Linux 内 核 提 供 的 netif start queue () 和 netif stop queue O 两 个 函数 的 原型 为 : 


VOLO netii start Queue (Struce net device. "dev)s 
void netrr stop queue (Struct net device. *dev); 


根据 以 上 分 析 ， 可 得 出 如 代码 清单 14.6 所 示 的 网 络 设备 打开 和 释放 函数 的 模板 。 
代 人 担 清单 14.6 ”网 络 设备 打开 和 释放 函数 模板 


Lotario Ano Xxx ODOenisLrucc net device ^*dev) 
Z1 
3 /* 申请 端口 、IRQ 等 ， 类 似 于 foPps->open */ 
net = Tequest. Lro deva Lrg, xx IDLEPrupt, U .dev-sname,. dev); 


4 
E s 
6 TeL Start queue(dev); 
| 
8 
9 
lÜSLatrio ANU Xxx release (struce net device "dev) 


12  /* ROMO. IROS, RwUFfops->close */ 
l3 irese arq(deyv-oirg, dev); 


15 netif stop queue (dev); /* can't transmit any more */ 


14.5 AU AXE UE 


从 14.1 节 网 络 设备 驱动 程序 的 结构 分 析 可 知 ，Linux 网 络 子 系统 在 发 送 数据 包 时 ， 会 调用 驱动 程序 提 
供 的 hard_start_transmit《〈) Pa, RBA sae RIK. FER ISRO i, XA RT ET m 
ABC] HA UAR EB xxx tx O 函数 。 


PA) 4e vc hr BN FE MB EL ACIS T] UE AU P o 


1) 网 络 设 备 驱动 程序 从 上 层 协 议 传递 过 来 的 sk_buff 参 数 获得 数据 包 的 有 效 数据 和 长 度 ， 将 有 效 数据 
放 入 临时 绥 冲 区 。 


2) 对 于 以 太 网 ， 如 末 有 效 数 据 的 长 度 小 于 以 太 网 冲突 检测 所 要 求 数据 帆 的 最 小 长 度 ETH_ZLEN， 则 
给 临时 绥 神 区 的 末尾 项 宛 0。 


3) 设置 价 件 的 寄存 如 ， 驱 使 网 络 设备 进行 数据 友 太 操作 。 
完成 以 上 3 个 步 又 的 网 络 设 备 驱 动 程序 的 数据 包 友 壕 函 数 柑 板 如 代 公 消 和 持 14.7 所 示 。 
代 担 清单 14.7 ”网 络 设备 张 动 程序 的 数据 包 及 大 函数 模板 


Lint xxx C> (oruot Sk burt *SkED, Seruct. net device dev) 
24 
3 int len; 
4 char *data, shortpkt[ETH ZLEN]; 
5 if (xxx send available(...)) ( /* 发 送 队 列 未 满 ， 可 以 发 送 */ 
6 /* 获得 有 效 数据 指针 和 长 度 */ 
] data = skb->data; 
8 len = skb->len; 
9 if (len < ETH ZLEN) { 
10 /* 如 果 帧 长 小 于 以 太 网 帧 最 小 长 度 ， 补 0 */ 


11 memset (shortpkt, 0, ETH ZLEN); 

TZ memcpy (shortpkt, skb->data, skb->len); 
13 len = ETH ZLEN; 

14 data = shortpkt; 

15 } 

16 

17 dev->trans start = jiffies; /* 记录 发 送 时 间 戳 */ 
de 

19 if (avail) (/* 设置 硬件 寄存 器 ， 让 硬件 把 数据 包 发 送出 去 */ 
20 Xxx hw tx(data, len, dev); 

21 ] else { 

o netif stop queue (dev); 

Zo ee 

24 } 

Zo] 


这 里 特别 要 强调 第 22 行 对 netif stop queue ©) 的 调用 ， 当 发 送 队 列 为 满 或 因 其 他 原因 来 不 及 友 送 当前 
上 上 层 传 下 来 的 数据 包 时 ， 则 调用 此 函数 阻止 上 层 继续 同 网 络 设备 驱动 传递 数据 包 。 当 忙于 及 送 的 数据 包 农 
发 送 完成 后 ， 在 以 TX 结 束 的 中 断 处 理 中 ， 应 该 调用 netif wake queue () 唤醒 被 阻塞 的 上 层 ， 以 启动 它 继 
续 同 网 络 设 备 驱 动 传送 数据 包 


当 数 据 传输 超时 时 ， 半 味 看 当前 的 肥 过 操作 失败 或 便 件 已 陷入 未 知 状态 ， 此 时 ， 数 据 包 友 过 超时 处 理 


图 数 xxx tx timeout ©) 将 被 调用 。 这 个 函数 也 需要 调用 由 Linux 内 核 所 供 的 netif wake queue〈) 函数 以 重 
新 局 动 设备 发 达 队 列 ， 如 代 但 清单 14.8 所 示 。 


代 公 清早 14.8 ”网络 设备 驱动 程序 的 数据 包 有 到达 超 时 国 数 模板 


lvoid xxx tx timeout(struct net device *dev) 

Z1 

TOO REF 

4 netif wake queue (dev); /* 重新 启动 设备 发 送 队列 */ 


从 前 文 可 知 ，netif wake queue () 和 netif stop queue O 是 数据 发 这 流程 中 要 调用 的 两 个 非常 重要 的 
函数 ， 分 别 用 于 唤醒 和 阻止 上 层 向 下 传送 数据 包 ， 它 们 的 原型 定义 于 include/linux/netdevice.h 中 ， 如 下 : 


Static online void net wake queue(struct net device dev); 
Scari anbine void netir Stop gueue(tstruct net device "devis 


14.6 ”数据 接收 流程 


网 络 设备 接收 数据 的 主要 方法 是 由 中 断 引 上 友 设 备 的 中 断 处 理 函 数 ， 中 断 处 理 函 数 判断 中 断 闫 开 ， 如 末 
为 接收 中 断 ， 则 谈 取 接收 到 的 数据 ， 分 配 sk_buffer 数 据 结构 和 数据 缓冲 区 ， 将 接收 到 的 数据 复制 到 数据 绥 
冲 区 ， 并 调用 netif rx O 函数 将 sk_ buffer 传 递 给 上 层 协 议 。 代 码 清 单 14.9 所 示 为 完成 这 个 过 程 的 国 数 模 
板 。 


代 担 清单 14.9 ”网 络 设备 张 动 的 中 断 处 理 函 数 模板 


LStdtic VOLO Xxx G3DtersuptoLmNE rdg, OI. dev. 1d) 


2 { 

o yas 

4 switch (status &ISQ EVENT MASK) { 
5 case ISQ RECEIVER EVENT: 

6 /* 获取 数据 包 */ 

| Xxx rx(dev}); 

8 break; 

9 /* 其 他 类 型 的 中 断 */ 
10 } 
11] 
l2static void xxx rx(struct xxx device *dev) 
1:33 
14 


lo Longi = get rev LeN (446); 
lo /* 分 配 新 的 套 接 字 缓冲 区 */ 
17 skb = dev alloc. sSkEb(lengtam + 2); 


19 skb reserve(skb, 2); /* 对 齐 */ 
20 skb->dev = dev; 


22  /* 读 取 硬件 上 接收 到 的 数据 */ 

29  Qnewiloaddr a FX FRAME. PORT, kb put(skb; length), Length 15; 
24 if (length &1) 

25 skb->data[length = 1] = inw(ioaddr + RX FRAME PORT); 


27 /* 获取 上 层 协 议 类 型 */ 
20  SkD-^protoocol > eil type trans(skb, dev); 


+ 


30  /* 把 数据 包 交 给 上 层 */ 


SL MEE rx (skh); 


33  /* 记录 接收 时 间 惟 */ 
人 


从 上 述 代码 的 第 4~7 行 可 以 看 出 ， 当 设备 的 中 断 处 理 程序 判断 中 断 类 型 为 数据 包 接收 中 断 时 ， 它 调用 
第 12~36 行 定义 的 xxx_ rx. O 图 数 完成 更 深入 的 数据 包 搂 收工 作 。xxx rx O 图 数 代 但 中 的 第 15 行 从 使 件 
读 取 到 接收 数据 包 有 效 数 据 的 长 度 ， 第 16~19 行 分 配 sk_buff 和 数据 缓冲 区 ， 第 22~25 行 谈 取 便 件 上 接收 到 
的 数据 并 放 入 数据 缓冲 区 ， 第 27~28 行 解析 接收 数据 包 上 层 协 议 的 类 型 ， 最 后 ， 第 30~31 行 代 公 将 数据 包 
EXE EHX. 


MRENAPIRR KEK, WA) NR poll A ARAA E. FERAL M. RIT AA mU 
动 提 供 作 为 netif napi add O 参数 的 xxx poll O 函数 ， 如 代码 清早 14.10 所 示 。 


代码 清单 14.10 ”网 络 设备 驱动 的 xxx poll ©) PR AREAL 


ee 


2 
3 int npackets = 0; 

4 SEcCuCe Sk DUIE *skb; 

9 SUruce Xxx priv “privy = Container. Ol (napi; SCIUCL XXX Driv, Hap); 
© PLUC Axx packet DEL; 

7 

8 


while (npackets < budget && priv->rx queue) { 
9 /* 从 队列 中 取出 数据 包 / 


10 Pkt = xxx dequeue buf (dev); 

I1 

12 /* 接 下 来 的 处 理 和 中 断 触 发 的 数据 包 接收 一 致 / 

13 Sko = dev allog SkD (Okt >dacalen 3 2) 

14 E 

do) skb reserve(skb. 2)7 

16 memcpy(skb put(skb, pkt->datalen), pkt->data, pkt->datalen); 
17 skb->dev = dev; 

18 9KD=>ProOCOCOL = gth type trans (Sko; dev)y 

19 /* 调用 netif receive_skb, 而 不 是 net rx， 将 数据 包 交 给 上 层 协议 */ 
20 Mmetit receive SO 

21 

22 /* 更 改 统计 数据 */ 

23 四 

24 perve stats.rx bytes, += pkEt-^Oatalens 

2. xxx release DUILeripkt); 

26 npacketstr; 

2] } 

28 if (npackets < budget) { 

29 napi complete (napi); 

30 xxx enable rx int (.); /* 再 次 启动 网 络 设备 的 接收 中 断 */ 
3l } 

32 return npackets; 

33] 


述 代 但 中 的 pudget 息 在 初始 化 阶段 分 配给 接口 的 weight 信 ，xxx poll O 函数 每 次 只 能 接收 最 多 
budget 个 数据 包 。 第 8 行 的 while《) 循环 读 取 设备 的 接收 绥 冲 区 ， 同 时 读 取 数据 包 并 提交 给 上 层 。 这 个 六 
程 和 和 中断 触 友 的 数据 包 接 收 过 程 一 八 ， 但 是 最 后 使 用 的 是 netif receive skb O 图 效 而 个 古 netif rx O K 
数 将 数据 包 所 区 给 上 层 。 这 里 体现 出 了 中 断 处 理 机 制 和 轮 启 机 制 之 同 的 在 列 。 


当 一 个 轮 询 过 程 结束 时 ， 第 29 行 代码 调用 napi complete O 宣布 这 一 消息 ， 而 第 30 行 代码 则 再 次 局 动 
网 络 设备 的 接收 中 肠 。 


里 然 NAPI 菩 容 的 设备 驱动 以 xxx_poll() 方式 接收 数据 包 ， 但 是 仍然 需要 首 钦 数据 包 接收 中 断 来 触及 
过 程 。 与 数据 包 的 中 断 接收 方式 不 同 的 十， 以 轮 询 方式 接收 数据 包 时 ， 当 第 一 次 中 断 妥 生 后 ， 中 有 断 处 
理 程序 要 花 止 设备 的 数据 包 接 收 中 断 并 调度 NAPI， 如 代码 清单 14.11 所 示 。 


代码 清单 14.11 网 络 设备 驱 动 的 poll 中 晰 处 理 


| 人 EEC vord XXX TIESTIODL (Int irg; VOId “dev 1d) 
| 
3 switch (status &ISO EVENT MASK) { 


4 case ISQ RECEIVER EVENT: 

5 . /* 获取 数据 包 */ 

6 xxx disable rx int(...);  /* 禁止 接收 中 断 */ 
7 napi schedule(&priv-»napi); 

8 break; 

9 . /* 其 他 类 型 的 中 断 */ 
10 } 
11] 


上 述 代码 第 7 行 的 napi_schedule〈() PR ZU $68] 7j SEIS] FR BEER FF al A, KR VES A poll IRS Bl I 
2& EI Ipoll AE EMAR, SEBAJE Hee Bea BL. GZS AA — NET RX SOFTIRQAXHHBr, Afia Xt 
网 络 层 接收 数据 包 。 图 14.3 所 示 为 NAPI 张 动 程序 各 部 分 的 调用 关系 。 


softnet data 






设备 硬件 中 断 "— 


netif rx action() 





把 设备 挂 接 上 poll list 
关闭 中 断 


napi schedule() 


返回 中 断 







调用 设备 
的 poll 方法 
读 取 数 据 包 










数据 包 读 取 完 毕 
司 动 中 断 
把 设备 从 poll list 清除 


图 14.3 NAPI 驱 动 程 序 各 部 分 的 调用 关系 
在 支持 NAPI 的 网 络 设 备 驱 动 中 ， 通 常 还 会 进行 如 下 与 NAPI 相 关 的 工作 。 


1 ) 在 私有 数据 结构 体 〈 如 xxx priv) 中 增加 一 个 成 员 : 


TO 


在 代码 中 束 可 以 方便 地 使 用 container of O 通过 NAPI 成 员 反 同 煞 得 对 应 的 xxx_ priv 指 针 。 
2) 通 第 会 在 设备 驱动 急 始 化 时 调用 : 
netif napi add(dev, napi, xxx poll, XXX NET NAPI WEIGHT); 


3) Hs fEnet device 结 构 体 的 open ©) 和 stop ©) ARAZ PH napi enable O) 和 


napi disable () 。 


14.7 


网 络 适 配 


可 以 退 


生变 化 ， 也 应 该 以 netif carrier on () 和 netif carrier off © 


除了 netif carrier on () 和 netif carrier off © KAk, F 


网 络 连接 状态 


船 使 件 电路 可 以 检测 出 链 路 上 和 十 侣 有 载 疲 ， 和 载波 反映 了 网 络 的 连接 是 合 正常 。 网 络 设 备 驱动 


过 netif carrier on () 和 netif carrier o 储 ()〉 疯 数 改变 设备 的 连接 状态 ， 如 果 驱 动 检测 到 连接 状态 发 


者 返回 链 路 上 的 载波 信号 赴任 存在 。 


以 设 症 一 个 定时 融 来 对 链 路 状态 进 
ir HS AK Be FF A 


4 


s s Ri, 8 


A, 


这 几 个 函数 都 接收 一 个 net_ device 设 备 结构 体 指针 作为 参数 ， 


VOLO DELLI carrier on(struct net device *dev)7 
void metiri Carrier Ofr(Sstruce net device *dev); 
nnt DOetrt Carrier OR(SUDUCt net - device. *dev)s 


PK ŽUTE SHEA 


一 个 图 数 netif carrier ok O 可 用 于 问 调 用 


TE P9 £8 8 DJ EE FE F RA EMP BOR AR E EARS BLA Ae RA, AX 


代码 清单 14.12 ”网 络 变 备 驱动 用 定时 吏 周 期 性 检查 链 路 状态 


lSbEdEIOC void Xxx Timer(unsagned long data) 


Z1 


上 述 代码 第 10 行 调用 xxx chk link () 函数 来 读 取 网 络 适 配 
具体 实现 由 人 硬件 决定 。 当 链 路 连接 上 时 ， 
第 18 行 的 netif carrier off CO 同样 显 了 式 地 通知 内 核 链 路 失去 连接 。 


SELUCE net device “dev e (struct het ee 
ulglink:? 


Lt (I(089V- rlags LEE UPJ} 
goto set timer; 


/* 获得 物理 上 的 连接 状态 */ 
下 ev 
if (! (dev->flags &IFF RUNNING) ) { 
Detur Carrier on (dey); 
dev->flags |= IFF RUNNING; 
printk(KERN DEBUG "$s: link upin"; dev-»name); 
) 
} else { 
if (dev->flags &IFF RUNNING) { 
站 tlt Carrier ofr (dev)? 
dev->flags &- SLEE RUNNING; 
printk(KERN DEBUG "$s: link down\n", dev->name) ; 
) 
) 


Set timer: 

priv->timer.expires = jiffies + 1* Hz; 
priv->timer.data = (unsigned long) dev; 
priv->timer.function = &xxx timer; /* timer handler */ 
add timer(sprerv--taimet); 


‘TA SAVER. SKEW as BUSH Za, TEXEDN S 
ASR Ft OBO» Mun SET AC ea ERAS, WISH 14. 12 ATA o 


di TBE AP AES At FF Ar 


第 12 行 的 netif carrier on ©) 图 数 显 式 地 通知 内 核 链 路 正 


处理 疯 数 中 读 取 物理 设 


， 以 获得 链 路 连接 状 


此 外 ， 从 上 述 源 代码 还 可 以 看 出 ， 定 时 喜 处 理 图 数 会 不 侣 地 利用 第 24~28 行 代码 局 动 新 的 定时 器 以 实 
现 周 期 性 检测 的 目的 。 那 么 最 官 局 动 定 时 峰 的 地 方 在 哪里 呢 ? 很 显然 ， 它 最 适合 在 设备 的 打开 函数 中 完 
成 ， 如 代码 清单 14.13 上 所 示 。 


ARAE 14.13 KE PIRE ee UIT] A ER 2C] A E BY as 


Lotario Anc Xxx OpenmisLtruct net device dev) 


Z1 
2 Struct XXX Priv “privy = netoev privi(dev); 
D sos 
6 priv->timer.expires = jiffies + 3* Hz; 
7 priv->timer.data = (unsigned long) dev; 
8 priv->timer.function = &xxx timer; /* 定时 器 处 理 函 数 */ 
o edd timer(spriv—--tuimeér); 
LO 


14.8 ”参数 议 置 和 统计 数据 
网 络 设备 的 驱动 程序 还 提供 一 些 供 系统 对 设备 的 参数 进 


当 用 户 调 用 ioctl ©) 


设置 网 络 设备 的 MAC 地 址 可 用 如 代码 清单 14.14 所 示 的 模板 。 
代码 清单 14.14 ”设置 网 络 设备 的 MAC 地 址 


lotari Ant set Mac a0dress (seruck net device "dev, word *addr) 
Z1 


3 if (netif running (dev)) 

4 return -EBUSY;  /* 设备 忙 */ 
5 

6 /* 设置 以 太 网 的 MAC 地 址 */ 

7 Xxx set mac(dev, addr); 

8 

9 return Uś 
10} 


上 述 程序 首先 用 netif running O 宏 判断 设备 是 
设置 MAC 地 址 ; 函数 在 网 络 适 
便 件 上 支持 MAC 地 址 的 修改 ， 而 实际 上 ， 


含 则 ， 调 用 xxx set mac () 


安 的 定义 为 : 


netif running () 


statio inline Daol netir sunmningiconst struct net device *dew) 


{ 


return test bit( LINK STATE START, &dev-»state); 


} 


SHP Hiec ©) 函数 时 ， 厂 命令 
友 这 一 调用 ) ， 系 统 会 调用 驱动 程序 的 set_config() 函数 。 


üt set config () 
地 址 、 中 断 等 
并 不 适合 包含 set config ©) 


=F o 


ERAN. set config © 


AiSIA.15 网络 设 备 张 动 的 Set config A AURA 


lotari Ane Xxx COOL net device "dev; 


3 if (netif running (dev)) /* 不 能 设置 一 个 正在 运行 状态 的 设备 */ 


return 一 EBUSY; 


5 
6 /* 假设 不 允许 改变 I/O 地 址 */ 
7 
8 


Lr (map=> base addr Ie MN 2-base addr) { 
printk (KERN | WARNING "xxx: Can't change I/O address\n"); 
9 return - HOPNOTSUPP; 
LO: +} 
11 


12  /* Ekai IRQ */ 
13 af (map->irq != dev->irq) 


行 设 普 或 读 取 设备 相关 信 . 


国 数 ， 并 指定 SIOCSIFHWADDR 命 令 时 ， 意 味 着 要 设置 这 


EEZ T, WREE., UA 


JJSIOCSIFMAP (如 在 控制 台中 运 


浮 数 传递 一 个 ifmap 结 构 体 ， 该 结构 体 主要 
`， 并 不 是 ifmap 结 构 体 中 给 出 的 所 有 修改 都 是 可 以 接受 的 。 实 际 上 ， 大 多 数 设 备 
函数 的 例子 如 代码 清单 14.15 所 示 。 


struct ifmap *map) 


JT E. 


这 个 设备 的 MAC 地 址 。 


味 独 设备 忙 ， 此 时 不 允许 


器 硬件 内 写 入 新 的 MAC 地 址 。 这 要 求 设 备 在 


许多 设备 并 不 提供 修改 MAC 地 址 的 接口 。 


行 网 络 配置 命令 ifonfig 了 驶 会 引 


包 人 用户 欲 设置 的 设备 要 使 用 的 IO 


14 dev->irg = map-^irg; 


16 return 0; 


上 上 述 代 但 中 的 set config ©) PRZIHBESZIRQRUME UR, iAH. HARUM EI PIX 
些 信 息 的 修改 ， 要 视 人 硬件 的 设计 而 定 。 


如 果 用 户 调 用 ioctl () 时 ， 命 令 类 型 在 SIOCDEVPRIVATE 和 SIOCDEVPRIVATE+1S 之 间 ， 系 统 会 调用 
驱动 程序 的 do ioctl ©) 图 数 ， 以 进行 说 备 专 用 数据 的 设置 。 这 个 设置 在 大 多 数 情况 下 也 并 不 需要 。 


驱动 程序 还 应 提供 get stats CO 函数 以 同 用 户 反 馈 设 备 状 态 和 统计 信息 ， 访 图 数 返 回 的 是 一 个 
net device stats 结构 体 ， 如 代码 清单 14.16 所 示 。 


代码 清单 14.16 ”网络 设备 张 动 的 get stats CO 图 数 模 板 


ea net. device Slats “xxx Starsistruct net device dev) 
2d 

3 

4 return &dev->stats; 

2j 


有 有 的 网 卡 便 件 比较 强大 ， 可 以 从 便 件 的 寄存 右 中 读 出 一 些 统计 信息 ， 如 rx_missed_errors、 
tx aborted errors. rx dropped. rx length errors 和 等。 这 个 时 候 ， 我 们 应 该 从 便 件 寄存 器 读 取 统计 信息 ， 填 
f&S$net device 的 stats 字 段 中 ， 并 返回 。 有 具体 例子 可 见 drivers/netethernetadaptec/starfire.c 中 的 get stats () 
pK] 2 0 


net device gstats 结 构 体 定义 在 内 核 的 pclude/linuxnetdevice.h 文 件 中 ， 它 包含 了 比较 完整 的 统计 信息 ， 
如 代码 清单 14.17 所 示 。 


代码 清单 14.17 net device stats 结构 体 


Struct. Het device Stats 
2 1 


3 unsigned long rx packets; /* 收 到 的 数据 包 数 */ 
unsigned long tx packets; /* 发 送 的 数据 包 数 * / 

5 unsigned long rx bytes; /* 收 到 的 字 节 数 */ 

6 unsigned long tx bytes; /* 发 送 的 字 节 数 */ 

7 unsigned long rx errors; /* 收 到 的 错误 数据 包 数 */ 

8 unsigned long tx errors; /* 发 生发 送 错误 的 数据 包 数 */ 
D tee 
10}; 


述 代码 清单 只 是 列 出 了 net device stats 包 含 的 主 项 目 统计 信息 ， 实 际 上 ， 这 些 项 目 还 可 以 进一步 细 
分 ，net device stats 中 的 其 他 信息 给 出 了 更 详细 的 子 项 目 统计 ， 评 见 Linux 源 代 代 。 


net device stats 结构 体 已 经 内 租 在 与 网 络 设备 对 应 的 t" 构 体 中 ， 而 其 中 统计 信息 的 修改 则 应 
VATE KR A AC TK A CA RNY EL ABS PR SE, CHEE PR LG AT REA LAIKA PRB. BY 
Ja EX ACI EE IN PR AT BH FRECHE OS PR BSG FRAT IA EK ES PRU HP S ES, US 5214.18 


HIZK o 


代码 清单 14.18 net device stats 结 构 体 中 统计 信息 的 维护 


1/* 发 送 超时 函数 */ 

vold Xxx tx timeout(struct net device *dev) 

34 

d gai 

5  dev-»stats.tx errorstt+; /* 发 送 错 误 包 数 加 1 */ 
6 

1] 

8 

O/* 中 断 处 理 函 数 */ 
IUSEALLC. VOLO XXX IDLSPrupt0rpct irg; void *dev X0) 





13.1 

12 SUiuce Het device “dey = dev id; 

13 switch (status &ISO EVENT MASK) { 

l4 ssa 

15 case ISQ TRANSMITTER EVENT: / 

16 dev->stats.tx packetst+; /* 数据 包 发 送 成 功 ,， tx packets 信 息 加 1 */ 
17 netif wake queue (dev); /* 通知 上 层 协 议 */ 

18 if ((status &(TX OK | TX LOST CRS | TX SQE ERROR | 
19 TX LATE COL | TX 16 COL)) !- TX OK) ( /* 读 取 硬 件 上 的 出 错 标志 */ 
20 /* 根据 错误 的 不 同情 况 ， 对 net_qdevice stats 的 不 同 成 员 加 1 */ 

21 ll ((status. &TX OR) == 0) 

o deve slats. ls Crrors ty 

INS lf (status &TX LOST CRS) 

24 deveostadts.tx carrier errorsTt; 

25 if (status &TX SQE ERROR) 

PAS deye-e sStatso.tx DesrtDegc errors 

27 if (status &TX LATE COL) 

28 dev->stats.tx window errorstt; 

29 LE (Stacus &ECX 16 COL) 

30 devo Calos L aborted GILSOPOTT, 

21 ) 

32 break; 

329 ‘Case [50 PX MISS EVENT: 

34 Qeve csDats.rx missed errors T= (Status. > 97 

305 break; 

36 Case IDO TX COL EVENT: 

Su dev->stats.collisions += (status >> 6); 

30 break; 

33 3 

40} 


EX AAS ES] 905611 RAS CE ACIS BT CLERC AE AIK 


音 误 的 数据 包 效 加 1。 


而 第 13~38 行 则 意味 


看 当 网 络 设备 中 断 产 生 时 ， 中 上 断 处 理 程 序 读 取 使 件 的 相关 信息 以 雇 定 修改 net device stats 统 计 信息 中 的 哪 


些 项 目 和 子 项 目 ， 并 将 相应 的 项 目 加 1。 


14.9 DM9000 网 卡 设备 驱动 实例 
14.9.1 DM9000 网 卡 硬件 描述 


DM9000 是 开发 板 采用 的 网 络 避 片 ， 是 一 个 高 度 集成 用 功 耗 很 低 的 高 速 网 络 控制 右 ， 可 以 和 CPU 下 
连 ， 支 持 10/100MB 以 太 网 连接 ， 芯 片 内 部 自 带 4KB 双 字 节 的 SRAM (3KB 用 来 发 送 ，13KB 用 来 接收 ) 。 
针对 不 同 的 处 理 器 ， 接 口 文 持 8 位 、16 位 和 32 位 。DM9000 一 般 直 接 挂 在 外 面 的 内 存 总 线 上 。 


14.9.2 DM9000 网 卡 驱动 设计 分 析 


DM9000 网 卡 驱动 位 于 内 核 源 代码 的 driversmnetdm9000.c 中 ， 它 基于 平台 驱动 架构 ， 代 码 清单 14.19 抽 
取 了 它 的 主干 。 其 核心 工作 是 实现 了 前 文 所 述 net_device 结 构 体 中 的 hard start xmit © ~ open () 、 
stop ©) ~ set multicast list © ~ do ioctl () ~ tx timeout © 等 成 员 函 数 ， 并 借助 中 断 辅 助 进行 网 络 数 
据 包 的 收发 ， 为 外 它 也 实现 了 ethtool_ops 中 的 成 员 函 数 。 特 别 注意 代码 中 的 黑体 部 分 ， 它 标明 了 天 键 的 数 
据 收 肥 流程 。 


代码 清单 14.19 ”DM9000 网 卡 驱 动 


static Const Strucb etatool ops dm2000 etntool ops = 7 


2 SQet Crvinio = dm9000 gec dArvinio; 
3 Uer Setutrngs = du9oUDO get SetLrngs, 
4 «SEL. SOLtIngs = du9UDUO. Set Sereings, 
5 get msg level = dum9pOO get Nsolevel; 
6 Set meglevel = dm9000 Set msglevel; 
7 

9]; 

9 


10/* Our watchdog timed out. Called by the networking layer */ 
Llstatic void dm2000 ctsmeout(strcuct net device *dev) 


12 { 

13 ues 

14 netif stop queue (dev); 

Lo dm9000 init dm9000 (dev); 

16 dm9000 unmask interrupts (db); 

17 /* We can accept TX packets again */ 
18 dev->trans start = jiffies; /* prevent tx timeout */ 
L9 netif wake queue (dev); 

20 

21 

22} 

23 


24 static int 
29 OmU. Start. xmDlILisSLPUuCt SE burr *skb; Struck net device ^dev) 


26 1 

2 TE 

28 /* TX control: First packet immediately send, second packet queue */ 
29 Jur (de > Tx IE Gn == L) 4 

30 amgU00 send packer (dev, skb=21p summed, Skb--len); 
od } else { 

32 /* Second packet */ 

33 db=>queue: -pkr len —.Skb--len; 

34 db->queue ip summed = skb->ip summed; 

35 netif stop queue (dev); 

36 ) 

Du 

26 spin unlock 19rqrestore (cdb=- lock, flags); 

39 

40 /* free this SKB */ 

41 dev consume skb any (skb); 

42 

43 return NETDEV TX OK; 

44 } 

45 

46 Static void dmdn9000 tx done(struct net device “dev; board info t *db) 
47 ( 

48 int tx status = ior(db, DM9000 NSR); /* Got TX status. */ 
49 

50 if (tx status & (NSR TX2END | NSR TXIEND)) { 

51 /* One packet sent complete */ 

52 d= TX Phi Onl ==; 

DES deve sta ge tx packets, 

54 

cts if (netif msg tx done (db)) 

56 dev dbg(db-»dev, "tx done, NSR $02x Xn", tx status); 
Du 

58 /* Queue packet check & send */ 

59 ll (dot DEL ONE 2 4) 

60 dm9000 send packet(dev, db-»queue ip summed, 
61 db=>queue. plc len); 


62 netif wake queue (dev); 


6 3 } 

64 } 

65 

06 Slat Le Void 

o .7-dm9000. EXCSLPUCL uet devroe *dev) 

68 { 

69 

70 

Jd i. * Check packet ready OF not */ 

o do { 

159 

74 

J75 /* Move data from DM9000*/ 

76 if (GoodPacket && 

T3 ((Skb = netdev alloc skb(idev, Ruben: cw) Te NULL d 
78 SKO 2eserve (skh, -2)7 

79 rapbr = (us). Ske put(tskb, RXhen = 4)7 
80 

81 /* Read received packet from RX SRAM */ 
82 

83 (OD= >and ky) (dD >10 -datar JOD; Rxlen); 
84 dev-^staLs;rx bytes: 1= Rx len; 

85 

86 /* Pass to upper layer */ 

9-7 Skb= -Protocol = Sth ype: Crane (okD dey); 
88 Lt (dev-»reatures & NETIF Ek RXCSUM) 4 
89 if ((((rxbyte & Oxlc) << 3) & rxbyte) == 0) 
eb skb--^ip summed = CHECKSUM UNNECESSARY; 
91 else 

92 SKD-cheoksum nope assert (Skb) 7 
93 } 

94 Detir ASKO); 

23 devs Stats. 0x, paockeceT 

96 

97 Pous 

98 ) while (rxbyte & DM9000 PKT RDY); 

99 } 
100 
LOL Static weorecuirn c das9UU 2nterrupe (int. reg, Ol “oes. d) 
102: 4 
14953 t 
104 /* Received the coming packet */ 
LOS Lr (unt status & ISR PRO) 
106 dm9000 rx(dev); 
107 
108 Eo Trnaomrit Interrupb check 7y 
109 Lr quntostatus © -Loki EDS) 
LEC dmo0 0:0. Ex done ctdev;: eb 
d CU 
L gh 
Elta return IRQ HANDLED; 
114 } 
14. 5 
LIO Static nt 
LL? um9000 open[fstruct net device *dgdev) 
1159-8 
119 
120 
121 /* Initialize DM9000board */ 
122 moO 000. cmt dupgoO0qOey) s 
1:2. 
124 BI qrequesc rg (deve 17g; -um2000 Interrupt; X£grlags.sdeve name. xev) 
L25 return -EAGAIN; 
126 
127 
128 Mid Check medratcedbeonman.dmeulcr meg LEEG 3 

129 netrir. start queue (dev); 

1.30 

Oral EC 35 

132 3 

13:9 

194-919 tco cmt 

1595 AMINU SLODISUIUCL met. devices “ndey,) 

1206 4 

134 

138 

139 eert. Stop Gucuie (NOS 

140 和 

LAL 

142 re Eres Tmnbetecdpt € 

143 Lree Iro(tdev= rg, ndev) ; 

144 

145 dm9000 shutdown (ndev) ; 

146 

14y return -03 

148 } 

149 

ISO Statio Consl Struct net device. Ops Dee Ops = "| 


jd ndo. open —odm9000 open, 


LZ «nde. Stop = Omo000: Slop; 

159 do -Start Xmt = Cm OOO! JSt. agp. mL 
154 .ndo tx timeout = dm9 000 timeout, 

LII ndo Sel. Tx mode = dm9000. lash. Cable; 
156 dodo aod = dm9000 TOCUL; 

1:977 ndo ‘Change meu = eth change: mtu, 

LSG ve = Cm7 000) See Pealures, 
159 oor validate addr = 6th, validate: addr, 
160 sndo seb mac address = Lh mac addr, 

161 #ifdef CONFIG NET POLL CONTROLLER 

LOZ dO. POL Control ber = Emg00 POLL Control ber, 
163. Fendt 

164 }; 

165 

166 

Bo a4 

168 * Search DM9000board, allocate space and register it 
169 cy 


FIO ie Ec. aL 

lJl-dm9000 probe (struce plarrorm device *pdey) 

LU X 

1-13 

174 

I LE mir Network device s*y 

176 人 
a 

178 

dr | * werup board rnfo structure */7 

180 ao = ne doy priv (nde)? 

101 

192 

15.9 

184 ID 

185 [* driver Sys em function */ 

186 ether setup (ndev); 

1497 

188 ndevecnetdewv ope = &am92000 netoev Ops; 
189 ndev-»watchdog timeo = MSsecs CO “jit i bes(watendog).; 
LU ndeveésethtool -Ops = &dm9000 ethtool ops; 
1-94 

192 ix 

193 pet = rog oter netdev'iuDdev)s 

194 

ToS 4 

196 

1:97 Seale Le Anne 

139 m9000 drv removetsLructc Plat orm device "*pdev) 


199. 1 

200 Struct Neu. device “ndev =“plauLorm get drvdatgipdev)s 
20] 

202 unregrscter- netdevindev)s 

203 dm2000 release boardipdev, necdev prrvíindev)); 

204 free netdev (ndev); 7k- free device structure *7 
2:4) 

206-3 

207 

208- FiTder CONEIG- OE 

2093 Siqgtrc CONsSt Surucy OL device zd du9000- I macobesLr--— 

ZLO ( .compatible = "davicom,dm9000", }, 

2i [ ge sentinel 9 3 

Zu zs d 

213 MODULE DEVICE TABLE(of, dm9000 of matches); 

214 #endif 

ZAG 

210. Gratie GE rut: Pilatrorm Ori ver Um OVO driver e. 

zy .driver = { 

2:159 .name = "dm9000", 

219 .Owner = THIS MODULE, 

220 «TID — &dm9000 drv pm ops, 

PARAN :Ot Match Cable: =- Qi match ptridm2000 of matcBes); 
DIZ }, 

22 . probe = dm9000 probe, 

224 .remove = dm9000 drv remove, 

22. "s 

226 


221 modale- plactrorm draverqydmo9000 driver); 


DM9000 了 驱动 的 实现 与 具体 CPU 无 天， 在 将 该 驱动 移植 到 特定 电路 板 时 ， 只 雷 要 在 板 文 件 中 为 与 板 上 
DM9000 对 应 的 平台 设备 的 案 存 右 和 数据 基地 址 进行 赋值 ， 并 指定 正确 的 I[RQ 资 源 即 可 ， 代 人 码 清 蛙 14.20 给 
出 了 在 arch/arm/mach-at91/board-sam9261ek.c 板 文件 中 对 DM9000 添 加 的 内 容 。 


代码 清单 14.20 ”board-sam9261ek 板 文件 中 的 DM9000 的 平台 设备 


Lotari orru t Te cource Cm V0 resource |i 4 

2 LO] = 3 

3 otare = ATI CHIPSELECT 2, 

4 .end = AT91 CHIPSELECT 2+ 3, 

5 flags. = IORESOURCE MEM 

6 by 

7 LLI S 

8 .Start = AT91 CHIPSELECT 2+ 0x44, 

9 .end = AT91 CHIPSELECT 2+ OxFF, 

EO lags. = IORESOURCE.MEM 

LE m 

12 ] = { 

1.3 -Lads., = TORESOURCE LRO 

14 | IORESOURCE IRQ LOWEDGE | IORESOURCE IRQ HIGHEDGE, 
LS } 

Lory 

ali 

lostatzc Seruce "m0U0 plat data dE9000 platdace =H 

19 .flags - DM9000 PLATF 16BITONLY | DM9000 PLATF NO EEPROM, 
20]; 
24 
270a IC SUID op bLguform eva ce udm2000 device 3 
2 .name = "dm9000", 
24 el = 0, 
25 num resources = ARRAY SIZE (dmo resource), 
2:0 resource = dm9000 resource, 
2 . dev = { 
28 dplecrorm data. = Kanuo “platdava, 
29 } 


SQUE E 


14.10 mee 


对 Linux 网 络 设备 驱动 体系 结构 的 层次 化 设计 实现 了 对 上 层 协议 接口 的 统一 和 硬件 驱动 对 下 层 多 样 化 
便 件 设备 的 可 适应 。 程 序 员 需要 完成 的 工作 集中 在 设备 驱动 功能 层 ， 网 络 设备 接口 层 net_device 结 构 体 的 
存在 将 干 变 万 化 的 网 络 设备 进行 抽象 ， 使 得 设备 功能 层 中 除数 据 包 接 收 以 外 的 主体 工作 都 由 填充 
net_device 的 属性 和 函数 指针 完成 。 


在 分 析 net_device 数 据 结构 的 基础 上 ， 本 章 给 出 了 设备 驱动 功能 层 设备 初始 化 、 数 据 包 收发 、 打 开 和 
释放 等 函数 的 设计 模板 ， 这 些 模板 对 实际 设备 驱动 的 开发 具有 直接 指导 意义 。 有 了 这 些 模板 ， 我 们 在 设计 
具体 设备 的 驱动 时 ， 不 再 需要 关心 程序 的 体系 ， 而 可 以 将 精力 集中 于 硬件 操作 本 身 。 


在 Linux 网 络 子 系统 和 设备 驱动 中 ， 套 接 字 缓冲 区 sk_buf 及 挥 着 巨大 的 作用 ， 它 是 所 有 数据 流动 的 载 
体 。 网 络 设 备 驱 动 和 上 层 协议 之 间 也 基于 此 绍 构 进行 数据 包 交 互 ， 因 此 ， 我 们 要 特 列 牢记 它 的 操作 方法 。 


28153* Linux EC 核心 、 总 线 与 设备 驱动 
本 章 导 读 


EC 总 线 仅仅 使 用 SCL、SDA 这 两 根 信号 线 就 实现 了 设备 之 间 的 数据 交互 ， 极 大 地 简化 了 对 硬件 资源 
和 PCB 板 布线 空间 的 占用 。 因 此 ，FC 总 线 非 常 广泛 地 应 用 在 EEPROM、 实 时 钟 、 小 型 LCD 等 设备 与 CPU 
的 接口 中 。 


Linux 系 统 定义 了 IC 驱动 体系 结构 。 在 Linux 系 统 中 ，FEC 驱 动 由 3 部 分 组 成 ， 即 FC 核 心 、EC 总 线 驱 动 
和 LFC 设 备 驱动 。 这 3 部 分 相互 协作 ， 形 成 了 非常 通用 、 可 适应 性 很 强 的 FEC 框 架 


15$.1 节 对 Linux 的 FC 体 系 结构 进行 分 析 ， 讲 解 3 个 组 成 部 分 各 自 的 功能 及 相互 联系 。 
1$.2 节 对 Linux 的 EC 核心 进行 分 析 ， 讲 解 i2c-core.c 文 件 的 功能 和 主要 函数 的 实现 。 
1$.3 节 、15$.4 节 分 别 详细 介绍 EC 适配器 驱动 和 IC 设备 驱动 的 编写 方法 ， 给 出 可 供 参 考 的 设计 模板 。 


15.5 节 、15.6 节 以 15.3 节 和 15.4 节 给 出 的 设计 模板 为 基础 ， 讲 解 Tegra ARM 处 理 器 的 EC 总 线 驱 动 ， 以 
挂 接 在 FEC 总 线 上 的 AT24XX 系 列 EEPROM 为 例 讲解 EC 设备 驱动 。 


15.1 Linux EC 体系 结构 


Linux 的 EC 体系 结构 分 为 3 个 组 成 部 分 。 
(1) PCR» 


FEC 核 心 提 供 了 EC 总 线 驱 动 和 设备 驱动 的 注册 、 注 销 方法 ，FEC 通 信 方 法 〈 即 Algorithm) 上 层 的 与 具 
体 适 配 问 无 天 的 代码 以 及 探测 设备 、 检 测 设备 地 址 的 上 层 代 码 等 ， 如 网 1$.1 所 示 。 


(2) PCH RIKS 


IC 总 线 驱 动 是 对 FC 硬 件 体 系 结构 中 适配器 端的 实现 ， 适 配器 可 由 CPU 控制 ， 甚 至 可 以 直接 集成 在 
CPU 内 部 。 


EC 总 线 驱动 主要 包含 FC 适 配器 数据 结构 ic adapter、I*C 适 配器 的 Algorithm 数 据 结构 i2ce algorithm 和 
控制 IC 适 配器 产生 通信 信号 的 函数 。 


eee 
关 的 代码 





图 15.1 Linux 的 EC 体系 结构 


经 由 FC 总 线 驱动 的 代码 ， 我 们 可 以 控制 并 C 适 配器 以 主 控 方 式 产 生 开 始 位 、 停 止 位 、 读 写 周 期 ， 以 及 
AMERITAR EACK. 


(3) PCR UJ 


EC 设备 驱 动 〈 也 称 为 客户 驱动 ) 是 对 FC 人 硬件 体系 结构 中 设备 端的 实现 ， 设 备 一 般 挂 接 在 受 CPU 控 制 
的 EC 适 配器 上 ， 通 过 FEC 适 配器 与 CPU 交换 数据 。 


IEC 设备 驱动 主要 包含 数据 结构 ic driverflli2e _ client， 我 们 需要 根据 具体 设备 实现 其 中 的 成 员 函 数 。 


在 Linux 2.6 内 核 中 ， 所 有 的 EC 设 备 都 在 sys 人 文件 系统 中 显示 ， 存 于 /sys/bus/i2c/ 目 录 下 ， 以 适配器 地 
址 和 心 卢 地 址 的 形式 列 出 ， 例 如 : 


2 
Leys Dusy 1207 
|-- devices 
| [== 3200. > si devi Ccesy platrorm versatile=126.0/126-0 
| eS. LZ < tal sa) va) OeviCes/ plat iormy versati te -176¢..0/ 120-1. 
tese “Cir lvers 

= CL 


在 Linux 内 核 产 代码 中 的 drivers 目 孙 下 有 一 个 ic 目录 ， 而 在 ic 目录 下 又 包 侣 如 下 文件 和 文件 夹 。 
(1) i2c-core.c 

这 个 文件 实现 了 IC 核 心 的 功能 以 及 /proc/bus/i2c* 接 口 。 
(2) i2c-dev.c 


实现 了 IC 适配器 设备 文件 的 功能 ， 每 一 个 C 适 配器 都 被 分 配 一 个 设备 。 通 过 适配器 访问 设备 时 的 主 
设备 号 都 为 89， 次 设备 号 为 0~255。 应 用 程序 通过 “i2c-%d”(i2c-0，i2c-1，...，i2c-10，...) 文件 名 并 使 用 
文件 操作 接口 open ©) . write ©) 、read ©) ~ ioctl © 和 close〈) 等 来 访问 这 个 设备 。 


i2c-dev.c 并 不 是 针对 特定 的 设备 而 设计 的 ， 只 是 提供 了 通用 的 read ©) . write ©) 和 ioctl O 等 接口 ， 
应 用 层 可 以 借用 这 些 接口 访问 挂 接 在 适配器 上 的 fC 设备 的 存储 空间 或 寄存 器 ， 并 控制 C 设 备 的 工作 方 
a 


(3) busses X fF 3€ 


这 个 文件 包含 了 一 些 FC 主 机 控制 器 的 驱动 ， 如 i2c-tegra.c、i2c-omap.c、i2c-versatile.c、i2c-s3c2410.c 


Ax 
wj o 


(4) algos XF Æ 
实现 了 一 些 FC 总 线 适 配器 的 通信 方法 。 


此 外 ， 内 核 中 的 ic.h 头 文件 对 ji2c adapter. i2c algorithm, i2c driver 和 i2c client 这 4 个 数据 结构 进行 了 
定义 。 理 解 这 4 个 结构 体 的 作用 十 分 重要 ， 它 们 的 定义 位 于 include/linux/i2c.h 文 件 中 ， 代 但 清单 15.1、 
15.2、15.3、15.4 分 列 对 它们 进行 了 插 述 。 


代码 清单 1$.1 i2c adapter 结 构 体 


Iotrucb.q2c adapter 4 


2 struct module *owner; 

2 unsigned int class; /* classes. to allow probing for *7 

4 COSG- SC raot 20. QLcorÉrTLum Selgo | * the algorithm to. access the bus */ 
E VOld. “aloqo..data; 


6 
7 j/* data. fields that ate valid. for all dewices * / 
8 StuLuce ru mubex Dus Lock; 


9 
NS Lut. timeouts Ix xm puIIÍres */ 
TNR int retries; 
I2 struct device dev; /* the adapter device */ 
13 
14 XT E IDE 
135 char name[48]; 
16 Struct. Completion uev Tolead; 
ed 
18 SULUCE mubex USerspace cclrenuts Lock; 
Ae, Svruce. LESE Nead Userspace <clienus, 
20 
2 struck X20 DUS SeCOvery Injo-*5bDus rocovery INLO; 
PA 


代码 清单 1$3.2 i2c algorithm fA] (4 


ISUEHOL 220 2lgorlthm 4 

2 /* If an adapter algorithm can't do I2C-level access, set master xfer 
3 to NULL. If an adapter algorithm can do SMBus access, set 

4 Smbus. xrers. LE set. To NULE, tthe SMBus protocol LS gimuülared 

5 using common I2C messages */ 

6 /* master xfer should return the number of messages successfully 

7 processed, or a negative value on error */ 

8 Ent "(MSE KIEJ SC UGG 126 adapter “adap, SCUO 220 meg “megs, 


9 LN. Dum 
LO lite: (ASMUS tort) XSUtruct a2C-adapler~*adap,. ule adds, 
Jd unsrgned short flags, char Tead write, 
d 2 Uo command, ING Size, Unmron 2C. smbus data "data; 
13 
14 /* To determine what the adapter supports */ 
LS uz [ULUDObrOnaLrtv) SL Cuca Ze adapter € 
16}; 


上 述 第 8 行 代 码 对 应 为 C 传 输 函 数 指针 ，FC 主 机 驱动 的 大 部 分 工作 也 聚集 在 这 里 。 上 述 第 10 行 代码 
对 应 为 SMBus 传 输 函 数 指针 ，SMBus 不 需要 增加 额外 引 脚 ， 与 C 总 线 相 比 ， 在 访问 时 序 上 也 有 一 定 的 差 


Ey 
TT o 
代码 清单 15.3 ”i2c driver 结 构 体 


| 


2 unsigned int class; 

2) 

4 /* Notifies the driver that a new bus has appeared. You should avoid 
5 * using this, it will be removed in a near future. 

6 id 

E, Int (^atcbecl qdapocer)tsbpucu 2c ‘adapeer *) -deprecated 

8 

9 /* Standard driver model interfaces */ 

10 ts A Probet EUG 120 CLL “yy “CONS istruce, «2c Gevice Xd $9 

11 II (= Eemove) (Sc EU ac Cene > 

$2 

13 /* driver model interfaces that don't relate to enumeration  */ 

14 vou, 'Sshucdown) (SUbuCce. 20 CLren. 

12 IIl: (en teu 126 Client: *e pn message Et mesg)y 

16 Ti: (ee rie 2c Cliente 7.2 

Ta 

Tọ /* Alert callback, for example for the SMBus alert protocol. 

19 * The format and meaning of the data value depends on the protocol. 
20 * For the SMBus alert protocol, there is a single bit of data passed 
Zl * as the alert response's low bit ("event flag"). 
22 Ty 
ZS MO. (Palheru (St ruce. 120. Cl went ts d SSgnecd ITE cate): 
24 
2D /* a ioctl like command that can be used to perform specific functions 
20 * with the device. 
2 m 
28 Loe: A sCcOmmand) (Seruce mA Chien. “Client, unssgnedo ms cma, org sang); 
29 

30 SULUCE wdevgce driver Grive, 


51 CONS) -SEE 20 device xd rg cable; 


29 /* Device detection callback for automatic device creation */ 
34 ine, cWX*5deLtect) (ote AC -CILLISNG mT "UE L206 DOSQTO IIO 7)$ 
39 Conse qgsrOned Shorc Ssddress- LEST 

36 SUruCce- disc. Dead e branco; 

3d 


代码 清单 1$.4 ”i2c client 结 构 体 


ES 


2 unsigned short flags; /* div., see below EJ 

3 unsigned short addr; /|* Chap address: = NOTE. Tpit ir 
4 /* addresses are stored in the  */ 
5 /* LOWER 7 bits i 

6 char name]lzc NAME SIZE]; 

7 struct i2c adapter *adapter; /* the adapter we sit on A 
8 SErUCL device- dev; [Ae device Structure Sy 
9 Lr rgy /[* irg issued by device P 
10 purucr Lieu. head detected; 


下 面 分 析 i2c adapter. i2c algorithm. i2c driver 和 i2c client 这 4 个 数据 结构 的 作用 及 其 盘根错节 的 天 
系 。 


(1) i2c adapter5i2c algorithm 


i2c adapter 对 应 于 物理 上 的 一 个 适配器 ， 而 i2c_ algorithm 对 应 一 套 通信 方法 。 一 个 上 C 适 配器 需要 
i2c algorithm 拓 供 的 通信 函数 来 控制 适配器 产生 特定 的 态 问 周期 。 缺 少 i2c algorithm 的 i2c_adapter 什 么 也 做 
不 了 ， 因 此 i2c adapter 中 包含 所 使 用 的 12c algorithm 的 指针 。 


i2c_algorithm 中 的 关键 函数 master_ xfer O 用 于 产生 [FC 访问 周期 需要 的 信号 ， 以 i2c_msg〔《 即 IC 消 
ER 为 单位 。i2c_msg 结 构 体 也 是 非常 重要 的 ， 它 定义 于 include/uapilinux/i2c.h “在 uapi 目 录 下 ， 证 明 用 户 
空间 的 应 用 也 可 能 使 用 这 个 结构 体 ) 中， 代码 清单 15.5 给 出 了 它 的 定义 ， 其 中 的 成 员 表 明了 PC 的 传输 地 
址 、 方 向 、 缓 冲 区 、 缓 冲 区 长 度 等 信息 。 


代码 清单 15.5”i2ce msg 结 构 体 


LECEUCTE 220 MSG 4 


2 |  ul16 addr; /* slave address xy 

3 alo flags 

4$define I2C _M TEN OxOO01D yw ehis rs x Len Dit chip address */ 
5S#define I2C M RD Ox0001 /* read data, from slave to master */ 
6#define I2C M STOP 0x8000 /* if I2C FUNC PROTOCOL MANGLING */ 
7#define I2C M NOSTART 0x4000 /* if I2C FUNC NOSTART */ 

8#define I2C M REV DIR ADDR 0x2000 /* if I2C FUNC PROTOCOL MANGLING */ 
94define I2C M IGNORE NAK 0x1000 /* if I2C FUNC PROTOCOL MANGLING */ 
10#define I2C M NO RD ACK 0x0800 /* if I2C FUNC PROTOCOL MANGLING */ 
ll#define I2C M RECV LEN 0x0400 /* length will be first received byte */ 
12 U ene /|*- msg lengch ur 
1:3 1.305, ABUL /* pointer to msg data ari 
14j 


(2) i2c driver 5Eji2c client 


i2c drive M FEIK IK, AEM ek Beprobe () . remove () . suspend () 、 
resume () “, AX, struct i2c device id 形式 的 id table 是 该 驱动 所 支持 的 CC 设备 的 ID 表 。i2c client] 


于 真实 的 物理 设备 ， 每 个 EC 设 备 都 需要 一 个 i2c client 来 描述 。i2e driver 与 i2c client 的 关系 是 一 对 多 ， 一 


个 ji2c driver 可 以 文 持 多 个 同类 型 的 i2c_ client. 


i2c client 的 信息 通常 在 BSP 的 板 文 件 中 通过 i2c board info 填 充 ， 如 下 面 的 代码 就 定义 了 一 个 FC 设 备 
的 I 有 DD 为 “ad7142 joystick". Jd 7JOx2C. bts AIRQ PFSHi2c client: 


Stabic SDPUDCE 140 Doard Info . Aniidata xxx 12/0 board anol) = 4 
#if defined(CONfiG JOYSTICK AD7142) || defined(CONfiG JOYSTICK AD7142 MODULE) 
{ 
12G BOARD INFO("ad/l42 JOYStICK", OxXZC), 
sirg = IRO Piro, 
by 


E CARIK bus type 的 match © 函数 i2c device match © 中 ， 会 调用 i2c match id © 函数 匹 
配 在 板 文件 中 定义 的 ID 和 ic driver 所 支持 的 ID 表 。 


(3) i2c adpaterSi2c client 


i2c adpater 与 i2c_client 的 关系 与 C 硬 件 体系 中 适配器 和 设备 的 关系 一 致 ， 即 ic_client 依 附 于 
i2c adpater。 由 于 一 个 适配器 可 以 连接 多 个 FC 设 备 ， 所 以 一 个 i2c_ adpater 也 可 以 被 多 个 i2c_client 依 附 ， 
i2c adpater 中 包括 依附 于 和 它 的 i2c client 的 链表 。 


假设 fC 总 线 适配器 xxx 上 有 两 个 使 用 相同 驱动 程序 的 yyy FC 设备 ， 在 打开 该 FC 总 线 的 设备 节点 后 ， 
相关 数据 结构 之 间 的 远 辑 组 织 天 系 将 如 图 15.2 所 未 。 







adapters [| 


algo_d: , ， 
algo- data i2c. algorithm 
master. xfe 


functionality 


ags 





图 15.2 ”天 C 驱 动 的 各 种 数据 结构 的 关系 


从 上 面 的 分 析 可 知 ， 虽 然 C 硬 件 体系 结构 比较 简单 ， 但 是 FC 体系 结构 在 Linux 中 的 实现 却 相 当 复 
杂 。 当 工程 师 拿 到 实际 的 电路 板 时 ， 面 对 复杂 的 Linux IC 子 系统 ， 应 该 如 何 下 手写 驱动 呢 ? 究 竞 有 哪些 是 
项 要 亲 目 做 的 ， 哪 些 是 内 核 已 经 提供 的 呢 ? 理 清 这 个 问题 非 第 有 意义 ， 可 以 使 我 们 在 面 对 具 体 问 题 时 迅速 
VUE ER ER 


一 方面 ， 适 配器 驱动 可 能 是 Linux 内 核 本 身 还 不 包含 的 ， 另 一 方面 ， 挂 接 在 适配器 上 的 具体 设备 驱动 
可 能 也 是 Linux 内 核 还 不 包含 的。 因此 ， 工程 师 要 实现 的 主要 工作 如 下 。 


-提供 IC 适 配器 的 硬件 驱动 ， 探 测 、 初 始 化 C 适 配器 (如 申请 fC 的 VO 地 址 和 中 断 号 )、 了 驱动 CPU 控 
制 的 FC 适配器 从 硬件 上 产生 各 种 信号 以 及 处 理 IC 中 断 等 。 


提供 IC 适配器 的 Algorithm， 用 有 具体 适配器 的 xxx xfer O 函数 填充 i2c algorithm 的 master xfer 指 针 ， 
并 把 i2c_ algorithm 指针 赋值 给 ic _adapter 的 algo 指 针 。 


实现 FC 设 备 驱动 中 的 i2c_driver 接 口 ， 用 具体 设备 yyy 的 yyy probe ©) 、yyy remove O 、 
yyy suspend () 、yyy resume () 函数 指针 和 i2c device id 设备 ID 表 赋 值 给 i2c_driver 的 probe、Tremove、 


suspend、resume 和 id table 指 针 。 


实现 FC 设 备 所 对 应 类 型 的 具体 驱动 ，i2c _ driver 只 是 实现 设备 与 总 线 的 挂 接 ， 而 挂 接 在 总 线 上 的 设备 
则 和 于 过 万 别 。 例 如 ， 如 果 是 字符 设备 ， 束 实现 文件 操作 接口 ， 即 实现 具体 设备 yyy 的 yyy read O 、 
yyy write () 和 yyy ioctl CO RASS; WRK, WMKIALSAIKS 


上 述 工 作 中 前 两 个 属于 EC 总线 驱动 ， 后 两 个 属于 fC 设备 驱动 。15.3~15.4 节 将 详细 分 析 这 些 工作 的 实 
施 方 法 ， 给 出 设计 模板 ， 而 15.5~15.6 节 将 给 出 两 个 具体 的 实例 。 


152 Linux 2CR Ù 


EC 核心 Cdrivers/i2c/i2c-core.c) 中 提供 了 一 组 不 依赖 于 硬件 平台 的 接口 函数 ， 这 个 文件 一 般 不 需要 被 
工程 师 修 改 ， 但 是 理解 其 中 的 主要 函数 非常 关键 ， 因 为 EC 总 线 驱 动 和 设备 驱动 之 间 以 上 C 核 心 作为 纽带 。 
FC 核 心中 的 主要 函数 如 下 。 


(1) 增加 /删除 Pc_adapter 


ine 420 add.adadapterisLruct 12c adapter ^adadp) 
vold 120 del. adapter(struct 12€ adapter *“adap); 


(2) 增加 /删除 i2c_ driver 


int OO 
ee 
#define i2c add driver(driver) \ 

120 rDOgrilsSLer driver (Tails MODULE, CUriver) 


(3) PCH. AIK ABE 


ine 12€ Transier(struct. 220 adapter * adap, Struct izo msg “Msgs, mt num); 
ine 120 Master send(strucce X26 client “Client; Conse Char “bur 221b Counc); 
Int, 140 Master recy (struct 14C clrent 9oclrent, Char *Dur nb Counc) | 


i2c transfer O 函数 用 于 进行 FC 适配器 和 I*C 设 备 之 间 的 一 组 消息 交互 ， 其 中 第 2 个 参数 是 一 个 指 癌 
i2c_msg 数 组 的 指针 ， 所 以 i2c_transfer() 一 次 可 以 传输 多 个 i2c_msg (考虑 到 很 多 外 设 的 读 写 波形 比较 复 
杂 ， 比 如 读 寄 存 器 可 能 要 先 写 ， 所 以 需要 两 个 以 上 的 消 轧 ) 。 而 对 于 时 序 比较 简单 的 外 设 ， 
i2c_master_send () PKZIUfli2c master recv O 国 数 内 部 会 调用 i2c transfer O 函数 分 别 完 成 一 条 写 消 轧 和 

一 条 读 少 轧 ， 如 代码 清单 1$.6、15.7 所 示 。 


代码 清单 1$.6 “FEC 核 心 的 ic master send O 函数 


lint 12€ master Send (conse Struct 12¢ client ^ollenL, Const Char “bur, ub count) 


24 

3 int ret; 

4 Strucc 220 aGaprer “adap = olien- adapter? 
9 StLrict 2c mèg meg, 

6 

i msg.addr = client->addr; 

8 msg illago = Cclacnc-Silags & I2C M. TEN; 

9 msg.len = count; 
10 Mogi = (char *)bur: 
Il 
12 pet = 1260 tranosierladi r; «msg, 1); 
e 
14 105 
ibs * If everything went ok (i.e. 1 msg transmitted), return #bytes 
16 * transmitted, else error code. 
L7 i 
18 return (ret == 1) count : ret; 


代码 清单 15.7 “FFC 核 心 的 i2c master recv () 函数 


Tire 20 master TeV Cono h SLruocrt 420c00ln8nco FeLi Ghar APUL mt Cour) 


2A 

3 SUPHCL.uAC adapter Tadap = Ollen t= adapter, 
4 Struct- 320 meo quedg: 

5 ^mt rete 

6 

i msg.addr = client->addr; 

8 MSG. bago- = Clhienu=ssr lags: uw L26 M TN 

9 mSoy tlogs. p= L2G. MRD? 

10 msg.len = count; 

L msg.buf = buf; 

12 

L3 Per =1 26 vransctertedepy «msg. 1) 7 

14 

lio os 

16 * If everything went ok (i.e. 1 msg received), return #bytes received, 
d * else error code. 

18 a 

19 return (ret == 1) count : ret; 
20} 


i2c transfer CO PRU AA UG] xe o s RE SER HREJ, E REIRES 
i2c adapter 对 应 的 i2c algorithm， 并 使 用 i2c algorithmH'Jmaster xfer © 函数 真正 驱动 硬件 流程 ， 如 代码 清 
单 15.8 所 示 。 


代码 清单 1$3.8 EC 核心 的 i2ec transfer O K% 


Ene 120 tran Tero ruci Tc adapter «c Adap; Seruce 120. mso “MSGS, HE num) 


Z1 

3 int ret; 

4 

5 lf a3dogap-salgo-omaster xfer) 4 

6 biu 

T ret =- adap --algo-7master xfer (adap; msgs,num).7 
8 oe 

9 return ret; 
10 } else { 
i dev dbg(&adap-»dev, "I2C level transfers not supported |n"); 
12 return “ENOSY 5; 
169 ) 


15.3 Linux EC 适配器 驱动 
15.3.1 I<C 适 配器 驱动 的 注册 与 注销 


由 于 IC 总 线 控制 器 通常 是 在 内 存 上 的 ， 所 以 它 本 身 也 连接 在 platform 总 线 上 ， 要 通过 platform_driver 和 
platform _ device 的 匹配 来 执行 。 因 此 尽管 IC 适配器 给 别人 提供 了 总 线 ， 它 自己 也 被 认为 是 接 在 platform 总 
线 上 的 一 个 客 尸 。Linux 的 忌 线 、 设 备 和 驱动 模型 实际 上 古 一 个 树 形 结构 ， 每 个 节操 虽然 可 能 成 为 列 人 的 
忆 线 控制 粤 ， 但 是 目 己 也 被 认为 是 从 上 一 级 忌 线 枚 举 出 来 的 。 


通常 我 们 会 在 与 IC 适配器 所 对 应 的 platform driver 的 probe() 函数 中 完成 两 个 工作 。 
初始 化 FC 适 配器 所 使 用 的 硬件 资源 ， 如 申请 IO 地 址 、 中 断 号 、 时 钟 等 。 


:通过 i2c add adapter () ZJllli2c adapter 的 数据 结构 ， 当 然 这 个 ic_adapter 数 据 结构 的 成 员 已 经 航 XXX 
适 配 磊 的 相应 函数 指针 所 初始 化 。 


通常 我 们 会 在 platform_ driver 的 remove O 函数 中 完成 与 加 载 函 数 相反 的 工作 。 
释放 IC 适 配器 所 使 用 的 硬件 资源 ， 如 释放 WO 地 址 、 中 断 号 、 时 钟 等 。 

-通过 i2c_del adapter © 删除 12c_adapter 的 数据 结构 。 

代码 清单 15.9 所 示 为 [C 适 配器 驱动 的 注册 和 注销 模板 。 

代码 清单 15.9 IC 适 配置 驱动 的 注册 和 注销 模板 


tacte ING RX 120 ProODG(SLEUEE. platroim device ^pdew) 


3 SLruct i20 adapter “adap; 

4 

5 — 

6 Xxx adpater hw init () 

7 adap->dev.parent = &pdev->dev; 

8 adap--dev.0f node = -pdeve^dev,.,or node; 
9 
10 ro = 1420 add adaptert(adap); 
11 : 

124 

13 

l4static int xxx 12c remove(struct platform device *pdev) 
154 

16 T 

17 xxx adpater hw free() 

18 i20 del &déprter(edev-^caddptet); 

19 

20 return 05 

21} 

22 

Z2985Ldtlo CODSUC Struct of device 10 xxx 220 Or Matnli = 4 
24 {, compatible e '"vendor,xxx-12c",],; 

25 {}, 

26]; 

27MODULE DEVICE TABLE(of, xxx i2c of match); 

28 


20SLAaLIO SLPUGLC plattorm driver xxx i20 driver = 1 
30 .driver = | 


34 sname e "X12C", 


3 Owner = THIS MODULE, 

GS JOE Maven. taplo e cxx TZC Of mate, 
34 by 

39 probe = xxx. 120 probe; 

36 remove = Xxx 120 remove, 

37); 


3omodule platform. drrver(xxx r20 QOrrver); 


上 述 代 码 中 的 xxx adpater hw init () 和 xxx adpater hw free () 函数 的 实现 都 与 具体 的 CPU 和 IC 适 
配器 硬件 直接 相关 。 


15.3.2 ”IC 总 线 的 通信 方法 


我 们 需要 为 特定 的 fC 适配器 实现 
PKI BL o 


master xfer () 


functionality () 


ER CAES f] 


通信 方法 ， 主 要 是 实现 i2c algorithmffunctionality ©) 


单 ， 用 于 返回 algorithm 所 文 持 的 通信 协议 ， 如 IC_FUNC DC. 


EK ZUR 


I2C FUNC 10BIT ADDR、I2C FUNC SMBUS READ BYTE, I2C FUNC SMBUS WRITE BYTE 等 。 


master xfer () pK 


KMEC 


示 为 XXX 设备 的 master xfer () 


代码 清单 13.10 master xfer () 


LSLOLIC Int 120 adapte xxx Kier (oruot 220 adapter “adap, 


id Ac 
PK 


上 完成 传递 给 它 的 ic _ msg 数组 中 的 每 个 CC 消息 ， 代 码 清 单 1$.10 所 


数 模板 。 


因数 模板 


2 int num) 

on 

4 Sane 

5 for {i = 0; n < num; att) 1 

6 i2c adapter xxx start(); /* 
7 /* 是 读 消息 */ 

8 下 

9 120 adapter xxx sectaddri(msg- adde << 1) | 2155; /* 
10 i2c adapter xxx wait ack(); > 
ll 120 adapter xxx readbytes(msgse[ln]|-»Dur, mesogsli]--len); /* 
12 长 的 数据 到 msgs [i] ->puf */ 

13 ) else f /* 
14 126 adapter xxx Setaddr (msg >a0dr << 1); do 
15 i2c adapter xxx wait ack(); [^ 
16 i2c adapter xxx writebytes(msgs[i]-»buf, msgs[i]->len); /* 
17 长 的 数据 到 msgs [i] ->puf */ 

18 } 

19 } 
20 i2c adapter xxx stop(); [^ 
21} 


上 述 代码 实际 上 给 出 了 一 个 master xfer ©) 
先 判断 消息 关 型 ， 
恩 产 生 一 个 开始 位 ， 紧 接 看 传送 从 设备 地 址 ， 
停止 位 。 图 15.3 所 示 为 


master xfer () 





TIT e epo e 


图 15.3 master xfer (O SEBXBSIN] Ae 





ELTUCD i20 Msg “Msgs, 


JB *7 


发 送 从 设备 读 地 址 */ 
获得 从 设备 的 ack */ 
读 取 msgs [i] ->len 


是 写 消 息 */ 

发 送 从 设备 写 地 址 */ 
获得 从 设备 的 ack */ 
“imsgs[i]->len 


产生 停 企 位 */ 


第 一 条 IC 消息 


最 后 一 条 
LC 消息 


图 数 模板 中 的 i2c adapter xxx start () 、i2c adapter xxx setaddr () 、 


图 数 处 理 FC 消 息 数组 的 流程 ， 对 于 数组 中 的 每 个 消息 ， 
若 为 读 消 息 ， 则 赋 从 设备 地 址 为 (msg->addr<<1) |1， 人 否则 为 msg->addr<<1 。 
然后 开始 数据 的 及 进 或 接收 ， 且 对 最 后 的 消 轧 

整个 master xfer O 完成 的 时 序 。 


对 每 个 消 
MS PEN 


i2c adapter xxx wait ack () ~ i2c adapter xxx readbytes () . i2c adapter xxx writebytes (2 和 
器 的 底层 硬件 操作 ， 与 KKC 适 配器 和 CPU 的 具体 硬件 直接 相 


i2c adapter xxx stop () 


A 


KAH T sé Baie 
需要 由 工程 师 根 据 心 厂 的 数据 手册 来 实现 。 


i2c adapter xxx readbytes O 用 于 从 从 设备 上 接收 一 串 数 据 ，i2c_ adapter xxx writebytes O 用 于 加 从 
设备 写 入 一 串 数 据 ， 这 两 个 函数 的 内 部 也 会 涉及 EC 总 线 协 议 中 的 ACK 应 答 。 


master_xfer O 男 数 的 实现 形式 会 很 多 种 ， 多 数 张 动 以 中 断 方 式 来 完成 这 个 流程 ， 比 如 及 起 便 件 操作 
请 求 后 ， 将 目 己 调度 出 去 ， 因 此 中 间 会 伴随 看 睡 虐 的 动作 。 


多 数 FC 总 线 驱动 会 定义 一 个 xxx _i2c 结 构 体 ， 作 为 i2c_adapter 的 algo_data〈 类 似 “ 私 有 数据 ”) ， 其 中 包 
含 FC 消 息 数组 指针 、 数 组 索引 及 FC 适 配器 Algorithm 访 问 控制 用 的 自 旋 锁 、 等 待 队 列 等 ， 而 
master xfer OO) 函数 在 完成 i2c_msg 数 组 中 消息 的 处 理 时 ， 也 经 常 需要 访问 xxx_i2c 结 构 体 的 成 员 以 获取 寄 
存 磊 基地 址 、 锁 等 信息 。 代 码 清单 1$.11 所 示 为 一 个 典型 的 xxx_i2c 结 构 体 的 定义 ， 与 图 1$.2 中 的 xxx_i2c 是 
对 应 的 ， 有 具体 的 实现 因 硬 件 而 异 。 


代码 清单 1$.11 xxx i2c 结 构 体 模板 


we SCC 

2 Sprimnbiock T LOCK? 

> wait queue head t wait; 

4 | “SG? 

5 unsigned int msg num; 
6 unsigned int msg idx; 
J unsigned int msg ptr; 
8 

9 

O 


Sl 226. adapeer adap; 


上 
一 一 


e. 
, 


15.4 Linux EC 设备 驱动 


FC 设 备 驱 动 要 使 用 i2c_driver 和 i2c client 数据 结构 并 填充 i2c_driver 中 的 成 员 函 数 。i2c_client 一 般 被 包 
舍 在 设备 的 私有 信息 结构 体 yyy_data 中 ， 而 i2c_driver 则 适合 被 定义 为 全 局 变量 并 杞 始 化 ， 代 码 清单 15$.12 上 所 
示 为 已 航 杞 始 化 的 i2c_driver。 


代码 清单 15.12 ”被 初始 化 的 i2c_driver 


lograr ic SEructe isO Craver yyy driver: = 4 


2 .driver = { 

3 .name = "yyy", 

4 boy 

2 . probe = yyy probe, 
6 .remove — yyy remove, 
7 sid table — yyy id, 

9]; 


15.4.1 Linux [C 设 备 驱 动 的 模块 加 载 与 卸载 


[2C 设 备 驱 动 的 模块 加 载 函 数 通 过 [2C 核 心 的 i2c add driver () API 函 数 添加 i2c driver 的 工作 ， 而 模块 
旬 载 函数 需要 做 相反 的 工作 :通过 IC 核心 的 i2c del driver © 函数 删除 i2e driver。 代 码 清单 15.13 所 示 为 
I*C 设 备 驱 动 的 模块 加 载 与 纯 载 函数 模板 。 


代码 清单 15.13 ”IC 外 设 驱 动 的 模块 加 载 与 卸载 函数 模板 


latatio int —_ Init yyy Init (void) 

zd 

3 return 2c add Griver(Gyyy driver); 
AJ 

omodule Initcall(yyy anit) 7 

6 


TJStaLlo Void xit yyy ©ex10(voi1d) 

8 { 

9 i2c del driver(&yyy driver); 
LUI 


limodule exit (yyy exit); 


15.4.2 Linux IC 设备 驱动 的 数据 传输 


在 FC 设 备 上 读 写 数据 的 时 序 且 数据 通常 通过 i2c msg 数 组 进行 组 织 ， 最 后 通过 i2c transfer O 函数 完 
EX. AMISSIS. 1ABTZR A 1 BE BUB XE Ti Te Offs HY A TT x8 o 


代码 清单 15.14 “FEC 设 备 驱 动 的 数据 传输 范例 


lstruct X2c msc meglz |, 


/* 第 一 条 消息 是 写 消息 */ 














2 

3 msg[0].addr = client->addr; 
4 nso |U|.tlege = 07 

5 msg[0].len = 1; 

6 msg[0].buf = &offs; 

7 /* 第 二 条 消息 是 读 消息 */ 

8 msg[1].addr = client->addr; 
9 meglll,bLblags = £26 M RD; 
10 msg[1].len = sizeof (buf); 
11 msg[1].buf = &buf[0]; 
12 


1 120 praneceriolresut- adapter, msg. 2)3 


15.4.3 LinuxfJi2c-dev.c MEA) AT 


i2c-devc 文 件 完全 可 以 被 看 作 是 一 个 CC 设备 驱动 ， 不 过 ， 它 实 现 的 i2c_client 古 虚拟 、 临 时 的 ， 主 要 是 
为 了 便于 从 用 户 空 间 操作 FC 外 设 。i2c-devc 针 对 每 个 CC 适配器 生成 一 个 主 设备 号 为 89 的 设备 文件 ， 实 现 
[i?e driver 的 成 员 函 数 以 及 文件 操作 接口 ， 因 此 i2c-devc 的 主体 是 “2c driver 成 员 图 数 + 字 和 人 符 设备 驱动 ”。 


i2c-dev.c 所 供 的 i2cdev read O ~ i2edev write O MBO VTA PB] ee read O 和 write ©) 
文件 操作 接口 ， 这 两 个 函数 分 别 调用 IC 核心 的 2c master recv O Mi2c master send O 函数 来 构造 一 条 
FC 消 息 并 引发 适配器 Algorithm 通 信函 数 的 调用 ， 以 完成 消息 的 传输 ， 它 们 对 应 于 如 图 15.4 所 示 的 时 序 。 





图 15.4 i2cdev read () 和 i2cdev write O 图 数 对 应 的 时 订 


但 是 ， 很 遗憾 ， 大 多 数 稍微 复杂 一 点 的 CC 设备 的 读 写 流程 并 不 对 应 于 一 条 消息 ， 往 往 需要 两 条 甚至 
多 条 消息 来 进行 一 次 读 写 周期 〈 即 如 图 1$.5$ 所 示 的 重复 开始 位 的 RepStart 模 式 ) ， 在 这 种 情况 下 ， 在 应 用 
层 仍 然 调用 read O . write © 文件 API 来 读 写 EC 设备 ， 将 不 能 正确 地 读 写 。 


w| xw |E 





K|15.5 RepStart 柄 去 


鉴于 上 述 原 因 ，i2c-dev.c 中 的 i2cdev read O 和 i2cdev write () 函数 不 具备 太 强 的 通用 性 ， 没 有 太 大 
的 实用 价值 ， 只 能 适用 于 非 RepStart 模 式 的 情况 。 对 于 由 两 条 以 上 消 居 组 成 的 读 写 ， 在 用 户 空 间 和 需要 组 织 
i2c_msg 消 姑 数 组 并 调用 I2C_RDWR IOCTL 命 令 。 代 码 清单 1$.1$ 所 示 为 2edev ioctl ©) ERAT TEE AS 


NS 


代码 清单 1$.1$ i2c-dev c 中 的 iPcdev ioctl © RAY 


lotari Lit x2c009ev LIOCOCLLÍSLEHRCL anode “anode; Struct fate “ILIS, 


e unsigned int cmd, unsigned long arg) 
o4 
4 SULUcCEe 220 Clicnc: “Client = {Struce 2x20 Client ~Jilles Priva c daca; 


5 US 

6 switch ( cmd) { 
7 case IZO SLAVE: 
8 


case I2C GOLAVE FORCE: 


9 T /* 设置 从 设备 地 址 */ 
10 case I2C TENBIT: 
11 "n 
L2 Case 120 FEC; 
13 EM 
14 Case: L2C€ FUNGO? 
1:5 a 
16 case: 120 RDWES 
17 recur 2o0dev 30CLl rdrwiclient, arg); 
18 case IZO oMBUS: 
19 053 
20 case IZ2C RETRIES: 
21 T" 
22 case 120 TIMEOUT: 
23 EA 
24 default: 
20 Perurn 2C OCOntrol(olieut,omdy;arg)s 
26] 


2/ireturn O0; 
28} 


常用 的 IOCTL 包 括 PC SLAVE (设置 从 设备 地 址 ) 、I2C RETRIES (没有 收 到 设备 ACK 情 况 下 的 重 
WRB, BRIA) . DC TIMEOU (超时 ) 以 及 IC RDWR. 


代码 清单 15.16 和 代码 清单 15.17 所 示 为 直接 通过 read O ~ write © 接口 和 和 O RDWR IOCTLiE SP-C 
设备 的 例子 。 


代码 清单 15.16 ”直接 通过 read © /write OO 读 写 EC 设备 


1l#include <stdio.h> 
2#include <linux/types.h> 
3#include <fcntl.h> 
4#include <unistd.h> 
5#include <stdlib.h> 
6#include <sys/types.h> 
J/#include €«sys/ioctl,.h» 
S#tinclude «linux/i2c.h» 
9#include «linux/i2c-dev.h» 


10 

llint main(int argc; char **argy) 
L24 

13 unsigned int fd; 

14 unsigned short mem addr; 

1 unsigned short size; 

16 unsigned short idx; 

17 #define BUFF SLAE 32 

16 enar Duri [BUFF SIAEJI; 

1:9 Char cswap; 

20 union 

zy { 

22 unsigned short addr; 

23 char bytes[2]; 

24} tmp; 

25 

26 IT (arga < 3) 4 

2] printf("Use:An$s /dev/i2c-x mem addr size\n", argv[0]); 
Zo return 0; 

29 } 

30 SsCani (argvizl, "d". &mem addr); 
S sscanf(argv[3], "sd", &size); 
32 

33 if (size > BUFF SIZE) 

34 Size = DUEF DIZE; 

25 

36 fd = open(argv[1], O RDWR); 
37 

38 if (tid) 4 

39 printi ("Error on opening the device file\n"); 
40 return 0; 

41 ) 

42 


43 | ioctl(fd, I2C SLAVE, 0x50); /* 设置 已 EPROM 地 第 */ 
44 ioctl(fd, I2C TIMEOUT, 1); /* REEN */ 
45 ioctl(fd, I2C RETRIES, 1);  /* ugsuyok */ 


46 

47 fOr (20x = 07 10m < Size; Trid; diem addr) 4 
48 tmp.addr = mem addr; 

49 cswap = tmp.bytes[0]; 

50 tmp.bytes[0] = tmp.bytes[1]; 

aL tmp.bytes[1] = cswap; 

52 write(fd, &tmp.addr, 2); 

53 read(fd, &buf[idx], 1); 

54 } 

OS buf[size] = 0; 


56 close(ttfo); 

5] printf("Read td char: $$Xn", size, buf); 
58 return y 

59) 


代码 清单 15.17 通过 O RDWR IOCTL 读 写 2C 设 备 


l#include <stdio.h> 
2#include <linux/types.h> 


3¢#include <fcntl.h> 

A#include <unistd.h> 

5#include <stdlib.h> 

6#include <sys/types.h> 

7#include <sys/ioctl.h> 

S#include <errno.h> 

9#include <assert.h> 

10#include <string.h> 

ll#include <linux/i2c.h> 

12#include <linux/i2c-dev.h> 

13 

14int main(int argc, char **argv) 

L94 

loOSCtPHUCL- 120 rowr 100tl data work queue; 
l7unsigned int idx; 

1Sunsigned int. fd; 

l9unslgned amt slave address, eg address; 
20unsigned char val; 


ZL m3 

Z2TAINt ret; 

2 

24if (argc < 4) { 

25 printf("Usage:An$s /dev/i2c-x start addr reg addr\n", argv[0]); 
Z5 return 0; 

21) 

28 

22ra = Open (argvill, O BDWE); 

20 

311 (Ifd) 4 

a2 printf("Error on Opening the device filen")? 
Do return 0; 

34} 


3osscanbLt(artgvLi2l, "9x", Slave address); 
2Sosscanf(argvIiIS]l, "9x", &reg address); 


Cw, 

38work queue.nmsgs = 2; /* 消息 数量 */ 

o9wWOrk queue- -mogo = (struct azc msq*)malloc(work queue.nmsge “orze (SC ruc 
40 126€ MSO) ) 3 

Alif (!work queue.msgs) 1 

42 printi" Memory alloc etrotin'")3 

43 close(fd); 

44 return 0; 

45) 

46 

47ioctl(fd, I2C TIMEOUT, 2); /* 设置 超时 */ 

48100tl(fd, I2C RETBIES, 1)? /* 设置 重 试 次 数 */ 

49 

DUEOr XL = reg address; 1 < reg address P 167 IPF) 1 

5l val = 1i; 

BZ work queue, msgs|0)) len = 14 

5S (work queue.msqs[0]).addr = slave address; 

54 (work queue.msgs[0]).buf = &val; 

59 

56 (work queuedusgepLil).lem = 1; 

F] (work. queue.msgsLll)£lags = 12C M. RD; 

58 (work queue.msgs[1]).addr = slave address; 

59 (work queue.msgs[1]).buf - &val; 

60 

61 ret = ioctl(fd, I2C RDWR, (unsigned long) &work queue); 
62 if (ret < O0) 

6 3 printf("Error during I2C RDWR ioctl with error code: $dXn", ret); 
64else 

65 printf("reg:$02x val:%02x\n", i, val); 

66 } 


6/close (fd); 
68return ; 
69} 


使 用 该 工具 可 指定 读 取 某 PC 控制 器 上 某 PC 从 设备 的 某 寄 存 器 ， 如 读 PC 控 制 器 0 上 的 地 址 为 0x18 的 从 
设备 ， 从 寄存 器 0x20 开 始 读 ; 


# i2c-test /dev/i2c-0 0x18 0x20 
reg:20 val:07 
reg:21 val:00 
reg:22 val:00 
reg:23 val:00 
reg:24 val:00 
reg:25 val:00 
reg:Z26 val:00 
reg:27 val:00 
reg:28 val:00 
reg:29 val:00 


reg: 
reg: 
reg: 
reg: 
reg: 
reg: 


2a 
Ab 
ZC 
ZC 
2e 
Zu 


val: 
Vals 
val: 
val: 
val: 
vals 


00 
00 
00 
00 
00 
00 


15.5 Tegra EC 总 线 驱 动 实 例 


NVIDIA Tegra EC 总 线 驱动 位 于 drivers/i2cbussesi2c-tegra.c 下 ， 这 里 我 们 不 具体 研究 它 的 硬件 细节 ， 
只 看 一 下 驱动 的 框架 和 流程 。 


FEC 总 线 驱 动 是 一 个 单独 的 驱动 ， 在 模块 的 加 载 和 御 载 函数 中 ， 只 需 注 册 和 注销 一 个 platform_driver 结 
构 体 ， 如 代 但 清单 19.18 所 示 。 


代码 清单 15.18 Tegra EC 总 线 驱 动 的 模块 加 载 与 卸载 


1/* Match table for of platform binding */ 
Ten Struct OF device 10 tegra 120 or maronii e 34 


3 | Compatible = "nvnidrg,tegrall49r120", «daca = etegrall4 12€ lw; Jy 
4 国共 is 
3 L compatible e "nvidia,tegra209120', «data Stegra20 140 DW; |, 
6 | Compatible = "nyvidia,tegra20e120-dvo", «data = .&tegra20 212€ Hwy fy 
7 {}, 

9]; 

9MODULE DEVICE. TABLE (OT; tegra 146 or match); 

10 

LlsStarlc SCEPUOLÉC platrornm Craver vegra L20 Urter = 4 

TZ . probe = Legra 120 probe, 

13 temove  tegra 120 remove, 

14 .driver = { 

15 .name = "tegra-i2c", 

16 .owner = THIS MODULE, 

L7 .of match table = tegra i2c of match, 

18 .pm = TEGRA I2C PM, 

i? by 

20} 

2 

Ap ALIG nb . ILL Ltegra 120 anil OEPIVeri(vordq) 

204 

24 return DLaLforu driver register (<cregra 12C driver); 

29] 

26 

2ISLALIG VOIG . exit Tegra 120 xI drrver(vorzo) 

28 { 

2g Plat orm driver unregiscter(Sstegra 220 Griver); 

20] 

24 


S28ubsys ixnrtcall(tegra 120 Anit driver); 
33module exit(tegra i2c exit driver); 


当 在 arch/army/mach-tegra 下 创建 一 个 名 字 为 tegra-i2c 的 同名 platform device， 或 者 在 tegra 的 设备 树 中 添加 
J tegra i2c of match LEKRA TT Am,  bXhplatform driver 中 的 probe O 图 数 会 执行 。 


其 中 probe 指 针 指 同 的 tegra_ i2c probe O 函数 将 被 调用 ， 以 初始 化 适 配 磊 价 件 、 申 请 适 配 疾 要 的 内 
存 、 时 钟 、 中 断 等 资源 ， 最 终 注册 适 配 咒 ， 如 代码 清单 1$.19 所 示 。 


代码 清单 15.19 Tegra IC 总 线 驱 动 中 的 tegra i2c probe © 函数 


lsrtatrio ant tegra 120 probeistruct platform device *pdev) 
Z1 


CO 


SLEUCL Legra 120 09v FIZO dev, 
Struct resource res) 
SEE 
0 

void | iomem *base; 

XI irg? 

int. ret = 0} 


e O € O9 9] y CH A 


= H 


res = platform geL resource(pdev, IORESOURCE MEM, 0); 


dad base = devm ioremap resource(&pdev-»dev, res); 


1.9 Dt 

14 res = cplatrorm get resourcedpdev, IORESOURCE -TRO UJ? 
15 

1:6 irg = cres-cSstart; 

T 

io: div CLR = devi- clk gqeu (epdev=>dev,, "AIV Cik; 

iS, 

2 

254. ioc dew = devm, kzelbbloc(spdevecdev,. Suzeoti(^rl2C0- dev), GEP SERNENM 
2 

VAS 

24 LAC: dev—=sbase = Dase; 

2 tC dey-comy elk eve cds 

26 Rc xuevecadapter boo: =. Gregra: 126 algo; 

2 qc eve Ig e Eg 

2.0 120 dev CODE Xd ecpdeveugs 

2 .20 :dev-»dev = &pdeve-dev; 

30 

Sol Le SC = devil reset con rol-ogetospoeve dev, VoM 
32 

Dus 

34 rel =O property read U32120 dev-dev-^ot node, "ocloek-rIreguency", 
39 6176. QEV Oae CLR race); 

36 if (ret) 

2 i2c.dev-»bus clk rate = 100000; /* default clock rate */ 
38 

33 下 

40 

41 PES 

42 int: sGompletioni(e)2C dev-e^msg complete); 

43 

44 

45 

46 Plat ror Set Wrvdata(pdey, uw2c-xew). 

47 

48 Deb ccHSgre T2606 tn eae dev) 

49 

50 

OL tel deum request LIPqOo&pdev- dev, 2c deve rdg 

52 tegra 20 ISP, Oy dev name(«puaev--dev). 2260 dev). 
923 

54 

95 IZO Set gdapdatea(terocodeve-adapbert, 20. dev). 

30 I20 dev-^adapLter.owner =- THIS- MODULE? 

oy i20 Ulevecadapterclaess = I260 CLAS9 DEPRECATED} 

OD otcrlocpy(r2c devesaddprer.name, “Teqra [2C Adapter"; 
59 sreo (120 -dev >adapter nans) 

60 ee 

o4 120 dev-»agdapter.devparent = &pdev--dev; 

62 R20 devs Adapteren e —cpoeve c, 

63 12€ devecadapter,.dev.or.node —'pdev-sdev.or node; 

64 

65 ret = 120 add numbered adapter(si2c dev--adapter); 

66 

67 

68 Ee “Oy 

69 } 


有 与 tegra i2c probe O PAU TIRE AZt etegra i2e remove () PAM, EEA ASHE Ee EN ay PK AY 
调用 platform driver unregister CO r& Z3 il platform driver 的 remove 指 针 方 式 委 调用 。 
tegra i2c remove () 的 代 人 码 如 清单 15.20 所 示 。 


代码 清单 1$.20 Tegra I C 总 线 驱 动 中 的 tegra i2c remove O 函数 


Lorca re pne Tera. L2c.removefsbruct plabrtorm device: *"pdev) 


Z1 

S SULUCE Tegra 120 dev 5420 devo platrtosndugesuusvdaietpaews 
4 120 deli adäpter (4120 dev-sagdapter); 

3 return 0; 

6} 


代码 清单 1$.19 和 代码 清单 1$.20 中 的 tegra_ i2c dev P ls u] ží as PTA fe BR, APA 
言 轧 结构 体 ， 代 人 码 清单 1$.21 所 示 为 tegra_i2c_ dev 结构 体 的 定义 。 我 们 在 编程 中 要 时 刻 牢 记 Linux 这 个 编程 


这 实际 上 也 是 面 癌 对 象 的 一 种 体现 。 


代码 清单 15.21 tegra i2c dev 结 构 体 


Struct. hegre. 126 dev. 4 


tegra i2c probe () 


struct device *dev; 


COnSLSLruct tegra: 120 nw. feature: *hw; 


SELUCE 120 adapter adapter; 
CPUet CLR; “div «dE 
Strüuct-ooILk fast. GLK; 
SUPUCE, Pece COMUCrOlL “Tt 
VOLO: omnem “base, 

IAG, COME: y 

EAC. SP 

bool LEG grsabled; 

InG ape: AVC) 

struct completron msg compiete; 
Mae, MSG or? 

us. meg Iul 

Sizo- Msg, our remaining; 
int msg read; 

uo2 PUS Clk race; 

bool. 28. suspended; 


Krt platform set drvdata (pdev, i2c dev) 和 i2c set adapdata (&i2c dev- 


>adapter, i2c dev) 已 经 把 这 个 结构 体 的 实例 依附 到 了 platform _ device 和 i2c_adapter 的 私有 数据 上 了 ， 在 其 
他 地 方 只 要 用 相应 的 方法 就 可 以 把 这 个 结构 体 的 实例 取出 来 。 


由 代码 清单 15.19 的 第 60 行 可 以 看 出 ， 与 1C 适 配 
Aid 15.2223 tH Ategra i2c algo 的 定义 。 


代码 清单 15.22 tegra i2c algo 结 构 体 


Vocati Ome SELUGL Ze ‘algerie t egra 12€ c80go = 


Z 
3 


4}; 


上 述 代 码 第 一 行 指 定 了 Tegra EC 总 线 通信 传输 函 
总 线 上 对 设备 的 访问 最 终 应 该 由 它 来 完成 ， 代 但 清单 1$.23 所 示 为 这 个 重要 


tegra i2c xfer msg (2 


master xfer = Sd. 126 xIer; 
fume’ LONALIEY = Legra. age Lune, 


疯 数 的 源 代 但 。 


{ 


数 tegra i2c xfer OO ， 


代码 清单 15.23 Tegra IC 总 线 驱 动 的 tegra i2c xfer (OO P 


Totari: Dt. tegra 2c xfer msg (otr ruct Tegra 12G dey 4176 dev; 


2 


SLPUCL': T2606 meg msg, enum msg end type end State) 


1260 dev-onsg DUL equsg--but; 


L2c dev—->msg bul remaining. = msg--len; 


20.09 Ome eri = 126 ERR- NONE? 


l0 deveomsg (ead = :umsg-o5nlags © IZC MRD); 
reine sCOMp Let LomUGi7 eC deve nmso complete 


packet header = 


PACKET HEADERO PROTOCOL I2C | 


(i2c dev-»cont id << PACKET HEADERO CONT ID SHIFT) 


(1 «« PACKET HEADERO PACKET ID SHIFT); 
LC. WIcIet(r2c dev, puccecchedder. 120. 1x IDEO) 


(0 «« PACKET HEADERO HEADER SIZE SHIFT) | 


ae wJi2c algorithmZ& ASE Pl 7Jtegra i2c algo, 


Xv PRE Aa CBE, PTA TEPC 
图 数 以 及 其 依赖 的 


NT. packet header Mm en = Ly 

18 dl WritelliZce dev. packer. Neaden, I2¢, .0% EERO}; 
T9 

20 

21. 

27 pet e waat fOr Com leton Lrmeoutc&sri2c dev-omsg complete, TEGRA 120 TIMEOUT); 
23 

24} 

29 

ZOSUSUTC Int Legra- 120 Xert ruci 12C- adapter “adap; Struct T2606 meg msgs [y 
21 int num) 

201 

23 人 

30 ania S 

31 int ret = 0; 


35 for (L = 07 T < mum? a). 1 

36 enum meg end type. end type =. MSG END--STOP; 
S if (i < (num - 1)) 1 

36 Lf AmSsgs a. Ls flog € -12C M NOSTART) 
39 end type = MSG END CONTINUE; 

40 else 

41 end type = MSG END REPEAT START; 
42 } 

43 pet > begra-L.20-cxfer msg (ize devy «emsgseLhrl;send bype); 
44 if (ret) 

45 break; 

46 } 

47 tegia: reg clock -dusable r C dev); 

48 return ret : i; 


从 代码 层面 上 看 ， 第 35 行 的 for 循 环 裔 历 所 有 的 i2c msg， 而 每 个 12c msg 则 由 tegra i2c xfer msg ( rf 
数 处 理 ， 它 每 次 友 起 人 硬件 操作 后 ， 实 际 上 需要 通过 wait for completion timeout O 等 待 传输 的 完成 ， 因 此 
这 里 面 就 会 有 一 个 被 调度 出 去 的 过 程 。 中 断 到 来 且 IC 的 包 传 输 结 束 的 时 候 ， 就 是 唤醒 这 个 睡眠 进程 的 时 


候 ， 如 代码 清单 15.24 所 示 。 
代码 清单 15.24 Tegra EC 总 线 驱动 的 中 断 服 务 程序 


ee 
21 


4 

5 if (status & I2C INT PACKET XFER COMPLETE) { 
6 BUG ON(12c- deve^msg bur remarninmg); 

7 complete(&iZc dev-»msg complete); 

8 j 

9 return. LRO HANDLED; 


15.6 AT24xx EEPROM 的 EC 设备 驱动 实例 


drivers/misc/eepromyat24.c 文 件 支 持 大 多 数 C 接 口 的 EEPROM， 正 如 我 们 之 前 所 述 ， 一 个 具体 的 FC 设 
备 驱动 由 i2c_driver 的 形式 进行 组 织 ， 用 于 将 设备 挂 接 于 FC 总 线 ， 组 织 好 了 后 ， 再 完成 设备 本 身 所 属 类 型 
的 驱动 。 对 于 EEPROM 而 言 ， 设 备 本 身 的 驱动 以 bin_ attribute 二 进 制 sys 氏 节点 形式 呈现 。 代 码 清单 1$.25 给 
th S ASK SAIN AEZE 


代码 清单 1$5.2$ AT24xx EEPROM 驱动 


lSLPuect at24 data 1 


2 struct at24 platform data chip; 
3 eas 
4 Scruce bin gturiDute bin; 
6]; 
4 
OSLALIC CONSEC Struce azc device Id 8:24 IUS = 1 
9 /* needs 8 addresses as A0-A2 are ignored */ 
10 { "24c00", AT24 DEVICE MAGIC(128 / 8, AT24 FLAG TAKE8ADDR) ], 
11 /* old variants can't be handled with this generic entry! */ 
12 ( "24c01", AT24 DEVICE MAGIC(1024 / 8, 0) }, 
15 ( "24c02", AT24 DEVICE MAGIC(2048 / 8, 0) }, 
14 is 
15 { /* END OF LIST */ } 
16}; 
17MODULE DEVICE TABLE (i2c, at24 ids); 
18 
l9Stqtro- $5126 t 2524 Seprom tead (struct qt24 data *at24, Char “bur, 
20 unsigned EEC SIze t Count) 
211 
22 SLPUGL 220 msg mogla]; 
23 "m 
24 L20 L ranoier (clien “adap lers Msg, 2); 
AD 
26 
27 
2OSLSgLIC- $Ss126 © at24 read(sStruct ab24 data *at24; 
29 char “Dut, LOCI C Oli; SIZ t Count) 
30 | 
31 
dd 
30 Status = atz4 ‘eeprom read(atz4, but; Oll; count); 
34 
39 
36 return retval; 
37 } 
38 
S9BDSLLOC BSlze L ab74 bin resdisLtpucr file ILP; Struck KODJecL- *EODJ; 
40 Struct. Dill LEribuLe “acer, 
41 Chat “Dut, Loil © Obi; Size 1 Counc) 
42 { 
43 struct at24 data *3t24; 
44 
45 at24 = dev get drvoata(XcoHntaluer or(koby, SLtruct device, koby)); 
46 Bpetura atad. read (tr Dub, Obl, Counc); 
47} 
48 
49... 
50 
olo lacio ane 24:24 probe(struct 220 clrenu “Cliente, SONS Struct 120 device Ld ^ad) 
52 { 
oe T» 
54 SYSIS Din atir initi(iesquL24- Din) 
aa at24->bin.attr.name = "eeprom"; 
56 at24-»bin.attr.mode = chip.flags & AT24 FLAG IRUGO S5 IRUGO : $8 IRUSR; 
ou dUZ4—^2DL1iH.read e atz4 bin read; 
o0 at2de-sDinjgsi12e = chapsbyce len; 
59 
60 TP 
61 return err: 
62] 
63 


OTSLQLiC Int 2624 remove(struct X20 client ellient) 
65{ 


66 

67 systs remove Din file(sclient--»dev.kobj]; satz4=>bin); 
68 

69 

TU return U7 

71] 

T2 

TSSEQLLO SUCIUCL 12€ driver atA driver — 4 
74 .driver = { 

75 .name = "at24", 

1149 .owner = THIS MODULE, 
11 by 

78 probe = &8L24 probe; 

79 .remove = at24 remove, 

80 „id table = at24 ids; 

81}; 

82 

OSSLatlo Int -Init Qt24 ane (void) 

84 { 

DO ju 

86 return iZc add driver (éat24 driver); 
87 } 

88module init(at24 init); 

89 

90static void | exit at24 exit(void) 

91{ 

92 120 del driver (¢at24 driver); 
93) 

94module exit(at24 exit); 


drivers/misc/eepronyat24.c 不 依赖 于 具体 的 CPU 和 IC 控制 器 的 人 硬件 特性 ， 因 此 ， 如 果 某 一 电路 板 包含 
该 外 设 ， 只 需要 在 板 级 文件 中 诬 加 对 应 的 PPc board info, Zl: 


Static Struct 12¢ board inio azc devel] 
{ I2C BOARD INFO("24c02", 0x57), }, 


Ani dala = 4 


be 


在 支持 设备 树 的 情况 下 ， 简 单 地 在 .dts 文 件 中 添加 一 个 节点 即 可 : 


CULLUUU 3 
status = "okay" 


eeprom@57 { 
compatible = "atmel,24c02"; 
reg = «0x57»; 

^; 


15.7 总结 


Linux 的 交 C 驱 动 体系 结构 相当 复杂 ， 它 主要 由 3 部 分 组 成 ， 即 C 核 心 、FC 总 线 驱 动 和 IC 设备 驱动 。 
I*C 核 心 是 FC 总 线 驱 动 和 I*C 设 备 驱动 的 中 间 枢 纽 ， 它 以 通用 的 、 与 平台 无 关 的 接口 实现 了 IC 中 设备 与 适 
配器 的 沟通 。FEC 总 线 驱 动 填充 ji2c adapter 和 i2c algorithm 结 构 体 ，I2C 设 备 驱 动 填充 i2c driver 结 构 体 并 实现 
其 本 吴 所 对 应 设备 类 型 的 驱动 。 


另外 ， 系 统 中 ic-devc 文 件 定义 的 主 设备 号 为 89 的 设备 可 以 方便 地 给 应 用 程序 提供 读 写 EC 设备 寄存 器 
的 能 力 ， 使 得 工程 师 在 大 多 数 时候 并 不 需要 为 具体 的 FC 设 备 驱 动 定 义 文 件 操作 接口 。 


第 16 章 ”USB 主 机 、 设 备 与 Gadget 张 动 
本 章 导读 


在 Linux 系 统 中 ， 提 供 了 主机 侧 和 设备 侧 视 角 的 USB 了 驱动 框 架 ， 本 章 主 要 讲解 从 主机 侧 看 到 的 USB 主 
机 控制 占 驱 动 和 人 设备 驱动 ， 以 及 从 设备 侧 看 到 的 设备 控制 血 和 Gadget 驱 动 。 
16.1 市 给 出 了 Linux 系 统 中 USB 了 驱动 的 整体 视图 ， 讲 解 了 Linux 中 从 主机 侧 和 设备 侧 看 到 的 USB 驱 动 层 


IRo 


MENLMHERKE, mg 53 USBI ET Lt LPs il a8 KR, USBEDLE Ti 
器 驱动 程序 控制 插入 其 中 的 USB 设 备 ， 而 USB 设 备 驱动 程序 控制 该 设备 如 何 作 为 从 设备 与 主机 通信 。16.2 
节 分 析 了 USB 主 机 控制 器 驱动 的 结构 并 给 出 Chipidea USB 主 机 驱动 实例 ，16.3 节 讲解 了 USB 设 备 驱动 的 结 
构 及 其 设备 请 求 块 处 理 过 程 ， 并 给 出 了 USB 键 盘 驱 动 实例 。 


从 设备 侧 的 角度 来 看 ， 包 含 编 写 USB 设 备 控 制 器 CUDC) 驱动 和 Gadget Function 驱 动 两 类 ，16.4 节 对 
UDC 和 Gadget 张 动 进行 了 讲解 ， 并 给 出 了 Chipidea USB UDC 和 Loopback Function 作 为 实例 。 


16.5 节 人 简 蛙 地 介绍 了 一 下 USB OTG 了 驱动 。 


16.1 节 与 16.2~16.5 节 是 整体 与 部 分 的 天 系 。 


16.1 Linux USBJEZJJ EZ (X. 


16.1.1 主机 侧 与 设备 侧 USB 驱 动 


USB 采 用 树 形 拓 扑 结构 ， 主 机 侧 和 设备 侧 的 USB 控 制 嚣 分 别称 为 主机 控制 器 (Host Controller) 和 USB 
设备 控制 器 CUDCO ， 每 条 总 线 上 只 有 一 个 主机 控制 器 ， 负 责 协 调 主机 和 设备 间 的 通信 ， 而 设备 不 能 主 
动 问 主机 发 送 任何 消息 。 如 图 16.1 所 示 ， 在 Linux 系 统 中 ，USB 驱 动 可 以 从 两 个 角度 去 观察 ， 一 个 角度 是 
主机 侧 ， 一 个 角度 是 设备 侧 。 


如 图 16.1 的 左 侧 所 示 ， 从 主机 侧 去 看 ， 在 Linux 驱 动 中 ， 人 处 于 USB 驱 动 最 底层 的 是 USB 主 机 控制 器 硬 
件 ， 在 其 上 运行 的 是 USB 主 机 控制 禹 驱动 ， 在 主机 控制 各 上 的 为 USB 梯 心 层 ， 骨 上 层 为 USB 设 备 驱 动 层 
(插入 主机 上 的 U 盘 、 鼠 标 、USB 转 串口 等 设备 张 动 ) 。 因 此 ， 在 主机 侧 的 层次 结构 中 ， 要 实现 的 USB 张 
JAFNA: USB 主 机 控制 硕 驱 动 和 和 USB 设备 驱动 ， 前 者 控制 插入 其 中 的 USB 设 备 ， 后 者 控制 USB 设 备 如 
何 导 主机 通信 。Linux 和 内核 中 的 USB 核 心 员 贡 USB 张 动 管 理 和 协议 处 理 的 主要 工作 。 主 机 控制 益 红 动 和 设 
备 蝶 动 之 则 的 USB 核 心 非 第 午 要 ， 其 功能 包括 : 通过 定义 一 些 数 据 结 构 、 安 和 功能 函数 ， 同 上 为 设备 驱动 
提供 编程 接口 ， 同 下 为 USB 主 机 控制 如 驱动 提供 编程 接口 ， 维护 整个 系统 的 USB 设 备 信 息 ; 完成 设备 热 插 
拔 控 制 、 忌 线 数据 传输 控制 等 。 


| EE A A ET i EE Fh EE OT A PT 


| 
从 运行 Linux 的 主机 侧 看 | | 从 运行 Linux 的 设备 侧 看 
| 
USB 设 备 驱动 | | 
Mass storage/CDC/HID 


| 

| 
T . : "CT = O O | d 
| Gadget Function 驱 动 (Mass storage/serial...) | | 
| 


Gadet Function API 
l Tel » Yee t1 $ =a ~y /> 7", /T ~ | | f ™ psa f / ^ Y 
| | USB 主 机 控制 器 驱动 OHCVEHCWUHCI| i | UDC 驱动 Comap/pxa2xx...) 
| 


| 
USB 主 机 控制 器 | ! USB 设 备 控制 器 
| 
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USB 总 线 


图 16.1 Linux USBI t fk Zi f 





E161 AM Aras, Linux Ni FP USB DU JEJE FF a ABNER: UDC 张 动 程 序 、Gadget 
Function API 和 Gadget Function 驱 动 程序 。UDC 驱 动 程序 直接 访问 硬件 ， 控 制 USB 设 备 和 主机 间 的 底层 通 
信 ， 向 上 层 提供 与 硬件 相关 操作 的 回调 函数 。 当 前 Gadget Function API 是 UDC 豫 动 程序 回调 函数 的 简单 包 
装 。Gadget Function 驱 动 程序 具体 控制 USB 设 备 功能 的 实现 ， 使 设备 表现 出 “网 络 连 接 *、“ 打 印 机 ”或 “USB 
Mass Storage" 等 特性 ， 它 使 用 Gadget Function API 控 制 UDC 实 现 上 述 功 能 。Gadget Function API 把 下 层 的 
UDC 驱 动 程序 和 上 层 的 Gadget Function 驱 动 程 序 隔离 开 ， 使 得 在 Linux 系 统 中 编写 USB 设 备 侧 驱动 程序 时 能 
够 把 功能 的 实现 和 底层 通信 分 离 。 


16.1.2 We, BOB. HO, WA 


FEUSBIC SBA, Aas. ACS. HOA G4. 


BE-S USB ich eb se eA le) a Ae is ek, PE EXT BOE. A E EE 8 AB HS PF] 
的 功能 组 合 〈《 在 探测 /连接 期 间 需 从 其 中 选 定 一 个 ) ， 配 置 由 多 个 接口 组 成 。 


在 USB 协 议 中 ， 接 口 由 多 个 靖 氮 组 成 ， 代 表 一 个 基本 的 功能 ， 征 USB 设 备 张 劲 程序 控制 的 对 象 ， 一 
功能 复杂 的 USB 设 备 可 以 具有 多 个 接口 。 每 个 配置 中 可 以 有 多 个 接口 ， 而 设备 接口 是 端点 的 汇集 
(Collection) 。 例 如 ，USB 扬 声 絮 可 以 包含 一 个 首 频 接口 以 及 对 旋钮 和 按钮 的 接口 。 一 个 配置 中 的 所 有 
接口 可 以 同时 有 效 ， 并 可 被 不 同 的 驱动 程序 连接 。 每 个 接口 可 以 有 备用 接口 ， 以 提供 不 同 质量 的 服务 参 
数 。 


痛 点 是 USB 通 信 的 最 基本 形式 ， 每 一 个 USB 设 备 接口 在 主机 看 来 融 是 一 个 疹 氮 的 集合 。 主 机 只 能 通 
师 点 与 设备 进行 通信 ， 以 使 用 变 备 的 功能 。 在 USB 系 统 中 每 一 个 病 点 都 有 唯一 的 地 址 ， 这 和 古 由 设备 地 址 和 


病 点 号 给 出 的 。 每 个 病 点 都 有 一 定 的 属性 ， 其 中 包括 传输 方式 、 总 线 访问 频率 、 市 视 、 号 和 数据 包 的 
最 大 容量 等 。 一 个 USB 奖 点 只 能 在 一 个 方 网 上 素 载 数据 ， 从 主机 到 设备 《〈 称 为 输出 妆 氮 ) 或 者 从 设备 到 主 
NL AAA mA ， 因 此 痛 氮 可 看 作 征 一 个 单 同 的 管道 。 病 点 0 通 吊 为 控制 靖 点 ， 用 于 设备 初始 化 参数 
等 。 只 要 设备 连接 到 USB 上 并 且 上 电 ， 奖 氮 0 束 可 以 极 访 问 。 、2 等 一 般 用 作 效 据 痪 点 ， 人 存放 主机 与 
设备 间 往 来 的 数据 。 


忆 体 而 主 ，USB 设 备 非 第 复 淋 ， 由 许多 不同 的 远 辑 持 元 组 成 ， 如 图 16.2 所 示 ， 这 些 蛙 元 之 间 的 天 系 如 


| 没 备 描述 符 





| 配置 1 
| 接口 0 | | 接口 1 | 接口 2 
| 0:z-— 1. i 























| wm | wm J| me | | 
16.2 ”USB 设备 、 配 置 、 接 口 和 端点 





设备 通 季 有 一 个 或 多 个 配置 ， 


:配置 通常 有 一 个 或 多 个 接口 ; 


fe I A PS PO 


Be LUE EAT EE NINA e 


这 种 层次 化 配置 信息 在 设备 中 通过 一 组 标准 的 擅 述 符 来 朱 述 ， 如 下 所 示 。 


设备 描述 符 : 关于 设备 的 通用 信息 ， 如 供应 商 ID、 产 品 ID 和 修订 ID， 支 持 的 设备 类 、 子 类 和 适用 的 
协议 以 及 默认 端点 的 最 大 包 大 小 等 。 在 Linux 内 核 中 ，USB 设 备用 usb_ device 结构 体 来 描述 ，USB 设 备 描述 
符 定 义 为 usb device descriptor 结 构 体 ， 位 于 include/uapi/linux/usb/ch9.h 文 件 中 ， 如 代码 清单 16.1 所 示 。 


代码 清单 16.1 usb device descriptor 结 构 体 


lstrucb usb device descripror 1 


2 Us bhength; /* 描述 符 长 度 * / 

3 | u8 bDescriptorType; /* 描述 符 类 型 编号 */ 

4 

5 lel6 bcdUSB; /* USB 版 本 号 */ 

6 __u8 bDeviceClass; /* USB 分 配 的 设备 类 code */ 
7 |. u8 bDeviceSubClass; /* USB 分 配 的 子 类 code */ 

8 ug bDeviceProtocol; /* USB 分 配 的 协议 Ccode */ 

9 | u8 bMaxPacketSize0; /* endpoint0 最 大 包 大 小 */ 
10 | lel6 idVendor; /* 厂商 编号 */ 
ale _ Hele SdProdsGts /* 产品 编号 */ 
12 |  lel6 bcdDevice; /* 设备 出 厂 编号 */ 
13 = u8 iManufacturer; /* 描述 厂商 字符 串 的 索引 */ 
14 | u8 iProduct; /* 描述 产品 字符 串 的 索引 */ 
15 = u8 iSerialNumber; /* 描述 设备 序列 号 字符 串 的 索引 */ 
16 = u8 bNumConfigurations;/* 可 能 的 配置 数量 */ 
17) | attribute ((packed)); 


配置 摘 述 符 : 此 配置 中 的 接口 数 、 文 持 的 挂 起 和 恢复 能 力 以 及 功率 要 求 。USB 配 置 在 内 核 中 使 用 
usb host config 结 构 体 摘 述 ， 而 USB 配 置 指 述 符 定 义 为 结构 体 usb_config_ descriptor， 如 代码 清单 16.2 所 


不 。 
代码 清单 16.2 usb config descriptor 结 构 体 


Lö cruco WD Config USSCLTIUOLOR | 


3 | u8 bLength; /* 描述 符 长 度 */ 

4 | u8 bDescriptorType; / x 描述 符 类 型 编号 */ 

e 

6 |. lel6 wTotalLength; /* 配置 所 返回 的 所 有 数据 的 大 小 * / 

7 = u8 bNumInterfaces; /* 配置 所 支持 的 接口 数 */ 

8 . us. bContigurationvalue; /* Set Configuration 命 令 需要 的 参数 值 */ 
9 Ue XCOnfiguratron; /* 描述 该 配置 的 字符 串 的 索引 值 */ 
10 | u8 bmAttributes; /* 供电 模式 的 选择 */ 
213 | u8 bMaxPower; /* 设备 从 总 线 提取 的 最 大 电流 */ 
12} attribute ((packed)); 


JdELHXRTI: 接口 类 、 子 类 和 适用 的 协议 ， 接 口 备 用 配置 的 数目 和 端点 数目 。USB 接 口 在 内 核 中 使 
用 usb interface 续 构 体 描述 ， 而 USB 接 口 摘 述 符 定 义 为 结构 体 usb_interface_ descriptor, YW V diri 816.3 Er 


不 。 
代码 清单 16.3 usb interface descriptor 结 构 体 


lStruct USD xnterrace descriptor 1 


3 — muB. bhength; /* 描述 符 长 度 */ 

4 | u8 bDescriptorType; /* 描述 符 类 型 */ 

5 

6 = u8 bInterfaceNumber; /* 接口 的 编号 */ 

2 = u8 bAlternateSetting; /* 备用 的 接口 描述 符 编号 */ 

8 | u8 bNumEndpoints; /* 该 接口 使 用 的 端点 数 ， 不 包括 端点 0 */ 
9 u8 bInterfaceClass; /* um */ 
10 | u8 bInterfaceSubClass; /* ATAN */ 





11 = u8 biInterfaceProtocol; /* 接口 所 遵循 的 协议 */ 
12 | u8 iInterface; /* 描述 该 接口 的 字符 串 索引 值 */ 
13} attribute ((packed)); 

M He Aye OW 、 | 

‘Vin ATH AF: 端点 地 址 、 方 同和 类型， 


文 持 的 最 大 包 大 小 ， 如 果 是 中 断 类 型 的 端点 则 还 包括 轮 询 频 


K, fELinuxNt% F, USBm usb host endpoint 结 构 体 来 摘 述 ， 而 USB 闪 点 摘 述 符 定 义 为 


usb endpoint descriptor 结 构 体 ， 如 代码 清单 16.4 所 示 。 


代码 清单 16.4 usb endpoint descriptorZi T4] (4s 








l Struct usb endpoint descriptor 4 

3 = u8 bLength; /* 描述 符 长 度 */ 

4 | u8 bDescriptorType; /* 描述 符 类 型 */ 

5 = u8 bEndpointAddress; /* 端点 地 址 :0~3 位 是 端点 号 ， 第 7 位 是 方向 (0 为 输出 , 1 为 输入 ) */ 
6 |. u8 bmAttributes; /* 端点 属性 : bit[0O:1] 的 值 为 00 表 示 控 制 ， 为 0 工 表示 同步 ， 

/* 为 02 表 示 批 量 ， 为 03 表 示 中 断 */ 

7 | lel6 wMaxPacketSize; /* 本 端点 接收 或 发 送 的 最 大 信息 包 的 大 小 * / 

8 = u8 biInterval; /* 轮 询 数据 传送 端点 的 时 间 间 隔 * / 

9 /* 对 于 批量 传送 的 端点 以 及 控制 传送 的 端点 ， 此 域 忽略 * / 
10 /* 对 于 同步 传送 的 端点 ， 此 域 必须 为 */ 
11 /* 对 于 中 断 传送 的 端点 ， 此 域 值 的 范围 为 1~255 */ 
12 _ us. Dhefresh; 
M: u8 bSynchAddress; 
14} attribute ((packed)); 


字符 串 描述 符 ， 在 其 他 描述 符 中 会 为 某 些 字段 提供 字符 串 索 引 ， 它 们 可 被 用 来 检索 描述 性 字符 串 ， 


可 以 以 多 种 语言 形式 提供 。 
usb string descriptor fA, "Vidi 816.5 Bro. 


代码 清单 16.$ usb string descriptor 结 构 体 


LStrüct usb String descriptor 4 


3 | u8 bLength; /* 描述 符 长 度 */ 

4 | u8 bDescriptorType; /* 描述 符 类 型 */ 

S 

6 lel6 wData[1]; /* 以 UTEF=16LE 编 码 */ 


Py atribute ((packed)); 


cp BR EAI, GHEREA, GIR, FR ERREI F 


例如 ， 笔 者 在 PC 上 插入 一 个 SanDisk U 盘 后 ， 通 过 lsusb 命 令 得 到 与 这 个 U 盘 相关 的 摘 述 符 ， 从 中 可 以 
显示 这 个 U 盘 包含 了 一 个 设备 插 述 从 、 一 个 配 首 插 述 从 、 一 个 接口 手 述 从 、 批 量 输入 和 批量 输出 两 个 响 反 


搬 述 全。 呈现 出 来 的 信息 内 容 直 接 对 应 于 usb_device descriptor. usb config descriptor. 


usb interface descriptor. usb endpoint descriptor. usb string descriptor 结 构 体 ， 如 下 所 示 : 


Bus 001 Device 004: 
Device Descriptor: 


ID DIOI:DISLI SanDisk Corp. 


bLength 18 

bDescriptorType 1 

DOdUSsB 2.00 

bDeviceClass 0 Interface 
bDeviceSubClass O 

bDeviceProtocol O 

bMaxPacketSize0 64 

idVendor 0x079lL Sandisk Corp: 
TProduct Üxol5lI 

bcdDevice 0.10 

iManufacturer l SanDisk Corporation 
iProduct 2 Cruzer Micro 

iSerial 3 20060877500A1LBE1FDEL 
bNumConfigurations 1 


Configuratron Descriptor; 


bLength 9 


bDescriptorType 2 
wTotalLength og 
bNumInterfaces d 
bConfigurationValue 1 
LCOMELGUra tL 9 
bmAttributes 0x80 
MaxPower 200mA 
Interface Descriptor: 
bLength 9 
bDescriptorType 4 
bInterfaceNumber 9 
bAlternateSetting 9 
bNumEndpoints z 
bInterfaceClass 8 Mass Storage 
bInterfaceSubClass O ICT 
bInterfaceProtocol 3.0. BULK (ZLIB 
ilnterface 9 
Endpoint Descriptor: 
bLength f 
bDescriptorType J 
bEndpointAddress OOL . EP LTN 
bmAttributes 2 
Transfer Type Bulk 
Synch Type none 
wMaxPacketSize x 
bInterval 9 
Endpoint Descriptor: 
bLength 7 
bDescriptorType 5 
bEndpointAddress OROL. EP X. QUI 
bmAttributes 2 
Transfer Type Bulk 
oynch Type none 
wMaxPacketSize ze 
bInterval 1 


Language IDs: (length=4) 
0409 English (US) 


16.2 USBx Ls Hill Zs UI zJJ 


16.2.1 USB XJ Lj: Hill 28 3 2/] A] EIS £s 4 


USB 主 机 控制 器 有 这 些 规格 : OHCI (Open Host Controller Interface) ~ UHCI (Universal Host 
Controller Interface) ~ EHCI (Enhanced Host Controller Interface) 和 xHCI (eXtensible Host Controller 
Interface) 。OHCI 驱 动 程序 用 来 为 非 PC 系 统 上 以 及 市 有 SiIS 和 ALi 心 厂 组 的 PC 主板 上 的 USB 心 厂 提 供 文 
持 。UHCI 驱 动 程序 多 用 来 为 大 多 数 其 他 PC 主板 〈 包 括 Intel 和 Via) 上 的 USB 必 请 提供 文 持 。EHCI 由 USB 
2.0 规 范 所 提出 ， 它 兼容 于 OHCI 和 UHCI。 由 于 UHCI 的 人 硬件 线路 比 OHCI 人 简单 ， 所 以 成 本 较 低 ， 但 需要 较 复 
杂 的 驱动 程序 ，CPU 负 蓓 稍 重 。xHCI， 即 可 扩展 的 主机 控制 器 接口 是 Intel 公 司 开发 的 一 个 USB 主 机 控制 器 
接口 ， 它 目前 主要 是 面 同 USB 3.0 的 ， 同 时 它 也 支持 USB 2.0 及 以 下 的 设备 。 


1. 主 机 控制 禹 驱动 


在 Linux 内 核 中 ， 用 usb hcd 结 构 体 描述 USB 主 机 控制 器 驱动 ， 它 包含 USB 主 机 控制 器 的 “家 务 ” 信 息 、 
便 件 资源 、 状 态 接 述 和 用 于 操作 主机 控制 器 的 he driver 等 ， 其 定义 如 代码 消 蛙 16.6 所 示 。 


代码 清单 16.6”usb hecd 结 构 体 


oeuet uso hed 4 


2 struct usb. bus self; /* hcd is-a bus */ 

3 struct. kref kref; /* reference counter */ 

4 

5 const char *product desc; /* mrodgduct/vendor string */ 
6 JE speed; /* Speed for this roothub. 
7 * May be different from 

8 ^ hod-^driver--rlags & HCD MASK 

9 i 

10 char irq descr[24]; /* driver + bus f */ 

1d 

L2 Struct tiner 41390 rh Cimer; |" drives rooct-nub polling */ 
13 Struct urb "Status urb; /* the current status urb */ 
14#ifdef CONfiG PM 

1:5 Struct work struct wakeup work; /* for remote wakeup */ 
1l6#endif 

17 

18 conse. Strücb he driver "driver /* hw-specific hooks */ 

19 
20 SEE Usb: phy “sib: pmys 
21 SUtruct phy “Diy? 
22 
23 unsigned long Lilacs; 
24 
bias. 
26 
2 /* The HC driver's private data is stored at the end of 
28 * this StÉtUCture, 
29 E7 

30 unoigned Long hed. prrivro] 

31 attribute ((aligned(sizeof(so4)))); 

32} 


usb_hcd 结 构 体 中 第 18 行 的 pc_driver 成 员 非 各 重要 ， 它 包含 基体 的 用 于 操作 主机 控制 融 的 钩子 函数 ， 
B[^hw-specific hooks”， 其 定义 如 代 但 清单 16.7 所 示 。 


代码 清单 16.7 he driver 结 构 体 


人 


const char *descriptrion; p*cUebhcocreucd'"* ebd XJ 
const char *product desc; = wroduct/wendor string YY 
size t hcd priv size; /* Size of private data */ 


fe GC. qisnades- os 
lrdgreturn C Lr. (Seruce usb nod +hed) ¢ 


9 rnt flags; 
11 Ix Cal ied to nit HCD and: root hub. */ 
1:2 re (ese), (Seruce “usb ned. shes 


E INE ASt Arer CSC IOE usb hod Ned) 


15 /* cleanly make HCD stop writing memory and doing I/O */ 
16 VOLO: (AGCO) (struct. usb hod *hod); 


18 /* shutdown HCD */ 
19 VOId (“shicdown) (Struct ub Deeds 


20 

2l /* return current frame number */ 

22 Ent (ger Trane number)» (Struct “usb. hcd Dod) 

2 

24 > manage. 1/0 requests; device state "y 

25 inp (Ourb-engueue) (GUrust usb hed. “led; 

20 Strüct urb “ur, psp mem tlago)? 

Zi inc. (uro Gequeie, (Struct “web. ned “led, 

28 struct Urb *urby mt status) s 

29 

30 /* Allocate endpoint resources and add them to a new schedule */ 
341. Ent (add CnC pointe) (Struc. Sb hed 5. Shruce USD device 7 

D Strucrc-cusb- lost endporNE ©) 7 

9 /* Drop an endpoint from a new schedule */ 

34 Iipp.qX9dropehdpornt isurücc usb Woo ,Stent Usb “device ~, 

39 SCrucb usb ost endpoint *) 3 

36 

SN int (check Doan Lue) (Leu Heb god ^t. truce usb device. Ty 

38 VOId (*reselt.bsnodwidGel)i0SLPuet usb Dod —cstrucco usb AEV LOS: jy 
39 /* Returns the hardware-chosen device address */ 

40 Ent (address device) oC ruce Usb Cd Ty Sh usb device udev) 
41 —— 

42 inb ("Seb cusb2 hw- HpmisUcrucc usb Nod: €. Struct usb deV eS X. pmo 
43 /* USB 3.0 Link Power Management */ 

44 /* Returns the USB3 hub-encoded value for the U1/U2 timeout. */ 
45 int. (enable U po LP CIMEL IASCC uso hog €, 

46 SULUCE. US devroe Ty Shum- spo snk Stare Slate), 

47] me (reuseable: Wolo. bpnobmeour)  SPEUuQu des cog. 

48 SLÉUCLOHSD IMeVIOO Tye Sru asp» ++i Stace: State) > 

49 Ente (bind raw port numbers) (Struct. usb HOO 5 ANC: 

50 IA Call tor power On/off the port at -necessary Ty 

aL Ine (pore powert»isuruck usb-hed ^hods dnt porcum, DooL enable); 
22]; 


fELinuxA rp, EHU Pe AK GJ SEHCD: 


StLUCL, Usb. hed. usb ersate nod (Const sbruct Me gOgrbver “driver, 
SULUCE -device "dev; char “bus. mame) 7 


Un PERLE HH RBS IN A 4% BRHCD: 


IDC Usb add Nea (struck usb ned “hed, 
unsigned int irqnum, unsigned long irgflags); 
word Usb gemoveghocd6scrueosp. eg ARCA) 


第 25 行 的 urb enqueue O 函数 非常 关键 ， 实 际 上 ， 上 层 通 过 usb submit urb O 提交 1 个 USB 请 求 后 ， 
该 函数 调用 usb hcd submit urb O ， 并 最 终 调 用 至 usb hcd 的 driver 成 员 Che driver 类 型 ) 的 


urb enqueue () PEZ. 


2.EHCI 主 机 控制 如 驱动 


EHCI HCDJEK 5) jE T HCDJ3EGJJ E] S] 


usb_hcd 结 构 体 的 私有 数据 (hed priv) ， 


所 示 。 
代码 清单 16.8  ehci hcd 结 构 体 


Letruct enci Nou 4 


2 /* timing support */ 

> enum ehci hrtimer event 

4 unsigned enabled hrtimer events; 
E kome T 

6 struct hrtimer hrtimer; 

7 

8 int Poo POLL Counc; 

J Int ASS poll -count; 

10 int died poll count; 

11 — 

12 /* general schedule support */ 
13 bool Scanning: 1; 

14 DOO need resocasnil; 

15 bool intr unlznkingsl; 
16 bool ida Xf progresses 
17 DOO async Unlinking: 1; 
18 bool shutdown:1; 

19 SLELUCE euo Sdn "gh Scam Next; 
20 
21 /* async schedule support */ 
Ze struct enci uh *asvnc; 
LAS SLIUcL eno wn sumy? 
24 struct list head async unlink; 
25 struct dist Nead async idle 
Z0 unsigned async unlink cycle; 
2j unsigned async Count; 
2o 
29 /* periodic schedule support */ 
30#define DEFAULT I TDPS 1024 
3 unsigned perlodlc. 617267 
32 -MO 人 
29 dma addr t periodic dma; 
34 Struct Jase heed Int? gh Jue; 
DD unsigned L thresh; 
36 “as 
9 /* bandwidth usage */ 


38#define EHCI BANDWIDTH SIZE 64 
39%#define EHCI BANDWIDTH FRAMES 


它 定 义 了 一 个 ehci hed tii, iE ATS 8 16.6xE XH 
这 个 结构 体 的 定义 位 于 drivers/usb/host/ehci.h 中 ， 如 代码 清早 16.8 


j/* one per controller */ 
next hrtimer event; 


hr timeouts[EHCI HRTIMER NUM EVENTS]; 


/* For AMD quirk use */ 


I* async activity Count. */ 


/* some HCs can do less */ 


/* hw periodic table */ 


/* uframes HC might cache */ 


(EHCI BANDWIDTH SIZE >> 3) 


40 ue bandwidth[EHCI BANDWIDTH SIZE]; 

41 /* us allocated per uframe */ 
42 u8 tt budget[EHCI BANDWIDTH SIZE]; 

43 /* us budgeted per uframe */ 
44 Scruce Last Nead xt 110b? 

45 

46 /* platform-specific data -- must come last */ 

47 unsigned long priv[0] | aligned(sizeof(s64)); 
48}; 


FAO RAR ACES SzXWusb hcd 和 ehci hcd 的 相互 转换 : 


SO 


Struct USD. ugd ‘enc. Lo med (Const Struot 


从 usb_hcd 得 到 ehci hcd 只 征 取得 “私有 ”数据 ， 而 从 ehci hedfi$usb hcd 则 是 通过 


构 体 成 员 获 得 结构 体 指针 。 


(Strucb usb Nod “hea):; 


olor hed *ono2l); 


过 container of O MZ 


AEH UN T e CH) JS EHCLEEA2DLUSS mas 


StaciC nnb enorlr 2a cl ec ruc. uso hog De) 


如 下 函数 分 别 用 于 开启、 停止 及 复位 EHCI 控 制 器 : 


ee 
Statro VOI ener- STOP QCStrucc web modo Ded 
Stacie Ent ebox eset. UCSLEUOLt Enor hed "eher. 


EG ER SUE drivers/usb/host/ehci-hed.c X PF FRATA f — Ahe driver 结 构 体 的 generic 的 实例 


ehci hc driver. 


me “Const Struce he Graver ence HO driver = 4 
.reset = encor -setup; 
.Start = Snert Sum, 
.Stop - enor -Stop 
.shutdown = ehci shutdown, 


drivers/usb/host/ehci-hcd.c 实 现 了 绝 大 多 数 ECHI 主 机 驱动 的 工作 ， 有 具体 的 EHCI 实 例 简 单 地 调用 


二 人 
esi 


和 初始 化 he driver 即 可 ， 这 个 函数 会 被 generic 的 ehci he driver 实 例 复制 给 每 个 具体 压 层 驱动 的 实例 ， 当 然 抵 
层 驱 动 可 以 通过 第 2 个 参数 ， 即 ehci_ driver overrides 蛙 写 中 间 层 的 reset() ~ port power O 这 2 个 函数 ， 男 
外 也 可 以 填充 一 些 额 外 的 私有 数据 ， 这 一 点 从 代码 清单 16.9ehci init driver O 的 实现 中 可 以 看 出 。 


代码 清单 16.9 ehci init driver 的 实现 


下 


2 Const SLPUOL Shei driver Overrides ~Over) 

ex 

4 COBY the generi able to dr end then apply che Overrides. *7 
5 *ury = ehon Ne driver; 

6 

7 if (over) 1 

8 OUV=7 CO: Priv S126 TS OVer-exLrIa priv S126; 
9 if (over->reset) 
10 drv->reset = over->reset; 
LI LL (OVer=>pOoOrt power) 
12 üsvesport power = over- port power; 
13 ) 


16.2.2 ”实例 ，Chipidea USB 主 机 驱动 


Chipidea 的 USB IP 在 舱 入 式 系 统 中 应 用 比较 三 沁 ， 它 的 驱动 位 于 drivers/usb/chipidea/ 目 录 下 。 


当 Chipidea USB 驱 动 的 内 核 代码 drivers/usb/chipidea/core.c 中 的 ci hdrc probe O 被 执行 后 〈 即 一 个 
platform _ device 与 ci hdrc driver 这 个 platform _ driver 匹配 上 了 ) ， 它 会 调用 drivers/usb/chipidea/host.c 中 的 
ci hdrc host init () 尔 数 ， 访 函数 完成 hce_driver 的 初始 化 并 赋值 一 系列 与 Chipidea 平 台 相 天 的 私有 数据 ， 
如 代码 清单 16.10 所 示 。 


代码 清单 16.10 — Chipidea USB host 驱 动 初始 化 


line ccr Wore host suitistruoct or hadra vel) 


A 

E Su.ruct Qr role driver rdr? 

4 

3 if ( !hw read (Gi, CAP DCCPARAMS, DCCPARAMS HC) ) 

6 return -ENXIO; 

7 

8 Bdrv = devin. kEzslloc(ol- dev, S&sZeort(struct OL role driver), GFP KERNEL); 
9 Lt. (lrdary) 

10 return -ENOMEM; 

11 

12 pudrv-»start = BOSCO Stari 

13 rtudrv-e»sLtop = host Stop; 

14 rdry-or£9 = host rg? 

1 rdrv-»name — "host"; 

16 cl--roles[oL ROLE HOST] = rdrv; 

17 

18 ENCI anit Oriver (ec. ehol ho driver, Lenci OL Overrides); 
19 
20 return 03 


16.3 USB 设 备 驱 动 


16.3.1 USB 设 备 驱 动 的 整体 结构 


这 里 所 说 的 USB 设 备 驱 动 指 的 是 从 主机 角度 来 看 ， 怎 样 访问 被 插入 的 USB 设 备 ， 而 不 是 指 USB 设 备 内 


部 本 里 运行 的 固件 程序 。Linux 系 统 实现 了 几 类 通 


WER « 


:通信 设备 类 。 

HID 〈 人 机 接口 ) 设备 类 。 
显 不 设备 类 。 

海量 存储 设备 类 。 

电源 设备 类 。 

打印 设备 类 。 
ELEDE EN 


一 般 的 通用 Linux 设 备 〈 如 U 盘 
编写 的 古 特定 厂商 、 


. USBintn, USBSE TE 
特定 心 厂 的 驱动 ， 而 且 往 往 也 可 以 参考 已 经 在 内 核 中 提供 的 驱动 模板 。 


首 用 的 USB 设 备 张 动 〈 也 称 客户 张 动 ) ， 划 分 为 如 下 几 个 


等 ) 都 不 需要 工程 师 再 编写 驱动 ， 而 工程 师 需 要 


Linux 内 核 为 各 闫 USB 议 备 分配 了 相应 的 设备 号 ， 如 ACM USB 调 制 解 调 大 的 主 设备 号 为 166〈 黑 认 设 


& % /dev/ttyACMn ) 


. USB4T EJJLIS] ERAS A180, KRESS 730-15 (默认 设备 名 /dewlpn) 、 


USB ¥ O 


I 3:05 73188 CRAKE 4/dev/ttyUSBn) 等 ， 评 见 http:/www.lanana.org/ 网 站 的 放 备 列表 。 


fEdebugfs Fh, 


$ sudo cat /sys/kernel/debug/usb/devices 

T: Bus=02 Lev=00 Prnt=00 Port=00 Cnt=00 Dev#= 
B Alloc= 2/900 us ( 0%), #Int= 1, #Iso= 0 
D Ver- 1.10 Cls-09(hub ) 
P Vendor-1d6b ProdID=0001 Rev- 4.00 

os -Manufacturer-Lrinux 4.0,0-—r:01 ohcl bed 
of. Product-OHCL PCI Host Controller 

S SerialNumber-0000:00:06.0 

C:* #Ifs= 1 Cfg#= 1 Atr=e0 MxPwr- OmA 
I:* If#= 0 Alt= 0 #EPs= 1 Cls-09(hub ) 
E Ad=81 (I) Atr=03(Int.) MxPS- 2 Ivl=255ms... 
T Bus=01 Lev=01 Prnt=01 Port=00 Cnt=01 Dev#= 
D Ver- 2.10 Cls=00(>ifc ) 
P Vendor-0930 ProdID=6545 Rev= 1.00 


1 Spd-12 


2 Spd-480 
Sub-00 Prot-00 MxPS=64 #Cfgs= 1 


/sys/kernel/debug/usb/devices 包 全 了 USB 的 设备 信息 ， 在 Ubuntu 上 插入 一 个 U 盘 后 ， 我 们 
在 /sys/kernel/debug/usb/devices 中 可 看 到 类 似 信 息 。 


MxCh= 8 


Sub-00 Prot-00 MxPS=64 #Cfgs= 1 


Sub=00 Prot=00 Driver=hub 


MxCh= 0 


Manufacturer-Kingston 

Product-DataTraveler 3.0 

SerialNumber-60A44C3FAE22EEA0797900F7 

#Ifs= 1 Cfg#= 1 Atr-80 MxPwr-498mA 

Ifs 0 Alt- 0 #EPs= 2 Cls=08(stor.) Sub=06 Prot=50 Driver=usb-storage 
Ad=81 (I) Atr=02 (Bulk) MxPS= 512 Ivl=0Oms 

Ad=02 (O) Atr=02 (Bulk) MxPS= 512 Ivl1-0ms 


+ 


H E aC). UO? US 03 
+ 


通过 分 析 上 述 记 录 信 息 ， 可 以 得 到 系统 中 USB 的 完整 信息 。USBView Chttp://www.kroah.com/linux- 
usb) 是 一 个 图 形 化 的 GTK 工 具 ， 可 以 显示 USB 信 息 。 


此 外 ， 在 sys 氏 文件 系统 中 ， 同 梓 包 售 了 USB 相 关 信 息 的 描述 ， 但 只 限于 接口 级 别 。USB 设 备 和 USB 接 
口 在 sys 氏 中 均 表 示 为 单独 的 USB 设 备 ， 其 目录 命名 规则 如 下 : 


根 集 线 右 一 集线器 端口 号 《一 集线器 端口 号 ~- 。. . ) :配置 .接口 


下 和 面 给 出 一 个 /sys/bus/usb 目 录 下 的 树 形 结构 实例 ， 其 中 的 多 数 文 件 都 是 锁定 到 /sys/devices 
及 /sys/drivers 中 相应 文件 的 链接 。 


.I— devices| I— 1-0:1.0 => ../../../devices/pci0000:00/0000:00:0b.0/usb1/1-0:1.0| I— 1-1 -> ../../../devices/ 


正如 tty driver. i2c driver$$, fELinuxPjfZ +, füHjusb driver 结构 体 描 述 一 个 USB 设 备 驱动 ， 
usb _driver 结 构 体 的 定义 如 代码 清单 16.11 所 示 。 


代码 清单 16.11 usb _ driver 结构 体 


lStruoct Usp: driver | 


2 const char *name-; 

3 

4 inr (*DEODO) (EPUCE Usb Interlace "55$, 

9 COMSsG Struct Usb device 1d 71d)? 

6 

J void ("di Connect] Celruce uso 1Nnterrdce InI)? 
8 

9 Lut (“unlocked 20001] (Struct. Usb Interlace “inti, Unsigned: Tnt code, 
i) võid *burs 
11 

12 int (suspend) (struct usb interrace *intf, pn message t message); 
1.3 Inr (^resune) (SCIUCC USD. LIL ace "IDEE 

14 Int. (* reser. resume)(struact usb rinteriace “~intL); 
15 

16 和 

i Ine. ("DOS reser) (SC Cruct Usb Im er ace ALCI]? 
18 

19 Const. Struct USD device rd 7rd cable; 
20 
2 Struct usb dynlds dynids; 
Ze struct usbdrv wrap drvwrap; 
23 unsigned int no dynamic id:1; 
24 unsigned int supports autosuspend:l; 
29 unsigned int disable hub initiated lpm:1; 
206 unsrgued nt Sore unbindrl; 
21} 


Ei E Ht USB ee ERIN, -ESEÉMLIVASEBAHJLfEZEprobe ©) Mdisconnect O PAB, EURIA Wr A 
图 数 ， 它 们 分 别 在 设备 被 插入 和 拔 出 的 时 候 调 用 ， 用 于 初始 化 和 释放 软 便 件 资 源 。 对 usb driver 的 注册 和 
注销 可 通过 下 和 面 两 个 函数 完成 : 


Le. usb regurscer(istrucL. usb Craver “new driver) 
vold usb. COreg ster (struct usb driver “driver; 


usb driver 结 构 体 中 的 id table 成 员 描 述 了 这 个 USB 驱 动 所 支持 的 USB 设 备 列表 ， 它 指向 一 个 
usb device id 数组 ，usb_device id 结构 体 包 含有 USB 设 备 的 制造 商 ID、 产 品 ID、 产 品 版 本 、 设 备 类 、 接 口 
关 等 信息 及 其 要 匹配 标志 成 员 match flags (标明 要 与 哪些 成 员 岂 配 ， 包 仿 DEV_LO、DEYV HI. 
DEV CLASS. DEV SUBCLASS, DEV PROTOCOL. INT CLASS, INT SUBCLASS, 
INT PROTOCOL) 。 可 以 借助 下 面 一 组 宏 来 生成 usb device id 结构 体 的 实例 : 


USB DEVICE(vendor, product) 


该 宏 根 据 制 造 商 ID 和 产品 ID 生成 一 个 usb_device id 结构 体 的 实例 ， 在 数组 中 增加 该 元 素 将 意味 着 该 驱 
动 可 支 持 与 制造 商 ID、 产 品 卫 匹配 的 设备 。 


USB DEVICE VER(vendor, product, lo, hi) 


AAR GR Hil ePID. P'SBID. A a HIA ME AT ae KLE HX usb device id 结构 体 的 实例 ， 在 数 
2H PLE ATU aS ok A A n] Sc EAS BAS AID. P^ pe IDL BORIHo-hi?6 E PY AAS EY t 6 e 


USB DEVICE INFO(class, subclass, protocol) 
该 宏 用 于 创建 一 个 匹配 设备 指定 类 型 的 usb_device id 结构 体 实 例 。 

USB INTERFACE INFO(class, subclass, protocol) 
该 宏 用 于 创建 一 个 匹配 接口 指定 类 型 的 usb_device id 结构 体 实 例 。 
代码 清单 16.12 所 示 为 两 个 用 于 描述 示 USB 张 动 文 持 的 USB 设 备 的 usb_device id 结构 体 数 组 实例 。 
代码 清单 16.12 usb device id 结构 体 数组 实例 


l/* 本 驱动 支持 的 USB 设 备 列表 */ 
2 


3/* sil */ 
dotati BLPUCL usb device id zd table PF] e 4 
3 {| USB DEVICE (VENDOR ID, PRODUCT ID) +; 


6 { }, 

7); 

8MODULE DEVICE TABLE (usb, id table); 

9 
10/* 实例 2 */ 
LLStHLIC p pruci usb device rd xd table. [Ll] = i1 
L2 t wtQVendor = UxLU0DZ2, match Tlags = USB DEVICE, ID MATCH VENDOR; Jy 
13 { }, 
14}; 
15MODULE DEVICE TABLE (usb, id table); 


HUSB URM PFET Be BR JS ERU DEI HJusb device id£iT4 A Print BU d BY, XXI 
驱动 程序 的 probe O 函数 束 被 执行 (如 果 这 个 USB 驱 动 是 个 模块 的 话 ， 相 关 的 .ko 还 应 被 Linux 上 自动 加 


S). viU Bx BREED. USBfÓCCOUuTdsconneet ©) 也 数 来 啊 应 这 个 动作 。 


上 述 usb_driver 结 构 体 中 的 函数 是 USB 设 备 驱 动 中 与 USB 相 关 的 部 分 ， 而 USB 只 是 一 个 总 线 ，USB 设 备 
驱动 真正 的 主体 工作 仍然 是 USB 设 备 本 丑 所 属 类 型 的 驱动 ， 如 字符 设备 、tty 设 备 、 块 设备 、 输 入 设备 等 。 
财 此 USB 设 备 驱 动 包 合 其 作为 忌 线 上 挂 接 设备 的 驱动 和 本 里 所 属 设 备 类 型 的 驱动 两 部 分 。 


与 platform driver. i2c driver 类 似 ，usb driver 起 到 了 “ 罕 线 ”的 作用 ， 即 在 probe() 里 注册 相应 的 字 
符 、tty 等 设备 ， 在 disconnect ©) 注销 相应 的 字符 、tty 等 设备 ， 而 原先 对 设备 的 注册 和 注销 一 般 直 接 发 生 
在 模块 加 载 和 番 载 图 数 中 。 


尽管 USB 本 喘 所 属 设备 张 动 的 结构 与 其 挂 不 挂 在 USB 总 线 上 没什么 关系 ， 但 是 据 此 在 访问 方式 上 却 有 
很 大 的 变化 ， 例 如 ， 对 于 USB 接 口 的 字符 设备 而 言 ， 尽 管 仍 然 挟 write〈) 、read〈) ~ ioctl O HER 
数 ， 但 是 在 这 些 图 数 中 ， 员 罕 始 终 的 是 称 为 URB 的 USB 请 求 块 。 


如 图 16.3 所 示 ， 在 这 株 树 里 ， 我 们 把 树 根 比 作 主 机 控制 苹 ， 树 时 比 作 有 基体 的 USB 设 备 ， 树 干 和 酌 权 束 
征 USB 总 线 。 酌 时 本 映 与 树 术 通 过 usb_driver 连 接 ， 而 树叶 本 吴 的 驱动 〈 谈 与 、 控 制 ) 则 需要 通过 其 例 叶 
设备 本 身 所 属 交 设备 张 动 来 完成 。 枫 根 和 树叶 之 间 的 “通信 ? 依 菲 在 树干 和 树 术 里 " 沉 消 ?的 URB 来 完成 。 
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图 16.3 USB 设备 驱动 结构 


由 此 可 见 ，usb_driver 本 里 只 十 有 找到 USB 设 备 、 官 理 USB 设 备 连 接 和 靳 开 的 作用 ， 也 就 是 说 ， 它 是 
公司 入 口 处 的 “打卡 机 ”， 可 以 获得 员工 (USB 设备 ) 的 上 /下 班 情况 。 树 时 和 员工 一 样 ， 可 以 是 研 友 工程 
师 也 可 以 是 销售 工程 师 ， 而 作为 USB 设 备 的 树叶 可 以 是 字符 树叶 、 网 络 树叶 或 英 树 时， 因此 必须 实现 相应 
设备 类 的 驱动 。 


163.2 USB 请 求 块 


1.urb 结 构 体 


USB 请 求 块 (USB Request Block, URB) 是 USB 设 备 驱动 中 用 来 描述 与 USB 设 备 通信 所 用 的 基本 载体 
和 核心 数据 结构 ， 非 党 类 似 于 网 络 设 备 驱 动 中 的 sk_buff 结 构 体 。 


代码 清单 16.13 URB 结 构 体 


lotrucr urb i 


2 -— 

3 /* public: documented fields in the urb that can be used by drivers */ 
4 Seruce dist head Ue Woes /* list head for use by the urb's 

5 * current owner */ 

6 "T 

7 SEDUCE usb host endpoint "ep; /* (internal) pointer to endpoint */ 

8 unsigned int pipe; j/* (an) pipe information */ 

9 Unsigned int. stream id; /* (in) stream ID */ 

10 int status; /* (return) non-I50 status */ 

11 unsigned Int transrer flags; ~= (I0) URB. SHORT NOT QE | wee 

12 void *transfer buffer; /* (in) associated data buffer */ 

13 dma addr t transfer dma; /* (in) dma addr for Lranster Duillier * / 
14 Struct scoatterlist “edo; /* (in) scatter gather buffer list */ 
s int num mapped sgs; /* (internal) mapped sg entries */ 

16 IHE HUM $0597 /* (in) number of entries in the sg list */ 
1-7 u32 transfer buffer length; [* (ian) date butter Length */ 

18 üoa actual, Length? /* (return) actual transfer length */ 
19 unsigned Char 7ce up packer; /* (rn) setup packet (control only) *7 
20 dma addr t setup dma; /* (in) dma addr for setup packet */ 
2l int start frame; /* (modify) Start trame (ISO) */ 
22 int number of packets; /* (rn) number of ISO packets */ 
2:5 int interval; /* (modify) transfer interval 
24 T XINBALSOD wy 
25 int error count; /* (return) number of ISO errors */ 
26 void *context; [*- (in) Contest Tor completion */ 
2 usb complete t complete; /* (1n) completion routine. */ 
28 Struct usb 180 packer OeSOPIpbOE 290 frame desolo; 
29 /* (in) ISO ONLY */ 

30} 

2.URB 处 理 流 程 


USB 设 备 中 的 每 个 冰 氮 都 处 理 一 个 URB 队 列 ， 在 队列 家 清空 之 前 ， 一 个 URB 的 典型 生命 周期 如 下 。 
1) 被 一 个 USB 设 备 驱动 创建 。 


创建 URB 结 构 体 的 函数 为 : 


Struct Urb *usb alloc urolint. X50 packets, gip t mem tleags),; 


1SO _packets 是 这 个 URB 应 当 包 含 的 等 时 数据 包 的 数 A, A NORA Bi ESN BE EL o mem flags# Zi 
是 分 配 内 存 的 标志 ， 和 kmalloc() 函数 的 分 配 标志 参数 人 台 义 相同 。 如 果 分 配 成 功 ， 该 图 数 返 回 一 个 URB 
结构 体 指 针 ， 人 否则 返回 0。 


结构 体 在 驱动 中 不 宜 静 态 创 建 ， 因 为 这 可 能 破坏 USB 核 心 给 URB 使 用 的 引用 计数 方法 。 


usb alloc urb ©) HJR ER 260773: 


OL TO = ree UIOS CTC Url UTD 


该 函数 用 于 释放 由 usb alloc urb ©) 分 配 的 URB 结 构 体 。 
2) 初始 化 ， 科 安排 给 一 个 特定 USB 设 备 的 特定 病 氮 。 
对 于 中 断 URB， 使 用 usb fill int urb © 函数 来 初始 化 URB， 如 下 所 示 : 


VOX dep TELL Int Ur (Sottouct UID Curb.:-truo usb device *dgdev, 
unsrgned nu pipe, vore rrano er Durffer, 

inb utter lengch, usb conplece-c 'oomplete, 

vorid *60nbext, nt Qnterval)s; 


URB 参 数 指 癌 要 被 初始 化 的 URB 的 指针 ;，dev 指 问 这 个 URB 要 被 发 送 到 的 USB 设 备 ; pipe 是 这 个 URB 
要 锌 发 送 到 的 USB 设 备 的 特定 闹 点 ; transfer_buffer 是 指 问 友 送 数据 或 接收 数据 的 缓冲 区 的 指针 ， 和 URB 一 
样 ， 它 也 不 能 是 静态 绥 冲 区 ， 必 须 使 用 kmalloc() 来 分 配 ; buffer lengthzétransfer buffer 指 针 所 指 回 缓冲 
区 的 大 小 ，complete 指 针 指 同 当 这 个 URB 完 成 时 航 调 用 的 完成 处 理 图 数 ; context 是 完成 处 理 函 数 的 "上 下 
X" s interval 是 这 个 URB 应 当 被 调度 的 间隔 。 


上 述 函 数 参 数 中 的 pipe 使 用 usb sndintpipe () 或 usb rcvintpipe © 创建 。 
对 于 批量 URB， 使 用 usb fill bulk urb O 函数 来 初始 化 ， 如 下 所 示 : 


voldcd AeH TEEI bulk urDUsUtruct urb “Urbs Surüuct-ubsD-dewrce "dev 
unssgned ITNE ‘pape, Wold. Eran lier Dutrer, 

Lob: Duper length; usb Compleue. complete, 

vord *context); 


除了 没有 对 应 于 调度 间隔 的 interval 参 数 以 外 ， 该 函数 的 参数 和 usb fill int urb O 函数 的 参数 含义 相 


上 述 函 数 参 数 中 的 pipe 使 用 usb sndbulkpipe () 或 者 usb revbulkpipe O 函数 来 创建 。 
对 于 控制 URB， 使 用 usb fill control urb O 函数 来 初始 化 ， 如 下 所 示 : 


人 
Unsigned. cnt pipe, Unsigned char *setup packet, 

vord am rk ior mt DUnLer Lengthy 

uso Complete t Complete; Vord ""OONtext). 


除了 增加 了 新 的 setup packet 参 数 以 外 ， 访 函数 的 参数 和 usb fill bulk urb © 函数 的 参数 含义 相同 。 
Setup_packet 参 数 指 回 即将 逢 发 达到 妆 点 的 放置 数据 包 


上 述 函 数 参 数 中 的 pipe 使 用 usb sndctrlpipe ©) 或 usb rcvictrlpipe () 函数 来 创建 。 


等 时 URB 设 有 像 中 断 、 控 制 和 批量 URB 的 初始 化 函数 usb fill iso urb O ， 我 们 只 能 手动 对 它 初 始 
化 ， 而 后 才能 提交 给 USB 核 心 。 代 码 清 单 16.14 给 出 了 初始 化 等 时 URB 的 例子 ， 它 来 自 


drivers/media/usb/uvc/uvc video.c 文 件 。 


代码 清单 16.14 初始 化 等 时 URB 


it POr “ds =O nae ie UVC URB or dara) 1 

2 Ure UD aLloc-uUurbinpacReUtso, fp Tlags); 

3 if (urb == NULL) { 

4 üUyc uninit VIO (stream, d); 

5 return -ENOMEM; 

6 j 

7 

8 urb->dev = stream->dev->udev; 

9 urb->context = stream; 

EO üurbesprpe = usb-revrsocpripetstream--dev--udev, 
EL ep->desc.bEndpointAddress) ; 
12#ifndef CONfiG DMA NONCOHERENT 

9 urb->transfer flags = URB ISO ASAP | URB NO TRANSFER DMA MAP; 
14 urb-siransrcer dma = tream urb dma liiy 
15#else 

16 Urb=2erenster i lage = URD 150 ASAP 

17f$endif 

18 urb->interval = ep-»desc.bInterval; 

19 urbe vransfer Dübrer = Srecan re. burter ia; 
2.) urb-»coNplete = uvye-vidoeo complete; 
zd urbe-onmumber Of packers = npackets; 
22 urg-stransrer DULI er Length = S276; 
223 
24 tor (T = UE. *mupmgockets se 4 
VES Urov 0150 Lrame descblLlsoriser = a). 2 S297 
20 Utero pLramecdesct]ls.lengcn -—perze- 
21 } 
28 
20 stream->urb[i] = urb; 
Su } 


3) 被 USB 设 备 驱 动 所 交 给 USB 核 心 。 


在 完成 第 1) 、2) 步 的 创建 和 初始 化 URB 后 ，URB 便 可 以 提交 给 USB 核 心 了， 可 通过 
usb submit urb O 函数 来 完成 ， 如 下 所 示 : 


TD Submit Ur OCOC UCE ED. Ur Dy. Jr Mem: a lags); 


URB 参 数 是 指 同 URB 的 指针 ，mem flags 参 数 与 传递 给 kmalloc O KASA s XUI], EHF BEA 
USB 核 心 如 何在 此 时 分 配 内 存 绥 冲 区 。 


在 提交 URB 到 USB 极 心 后 ， 直 到 完成 函数 被 调用 之 前 ， 不 要 访问 URB 中 的 任何 成 员 。 


usb submit urb O 在 原子 上 和 下文 和 进程 上 下 文中 都 可 以 航 调 用 ，mem flags 变 量 需 根据 调用 环境 进行 
相应 的 设置 ， 如 下 所 示 。 


"GFP. ATOMIC: 在 中 断 处 理 函 数 、 展 半 部 、tasklet、 定 时 需 处 理 函 数 以 及 URB 完 成 函数 中 ， 在 调用 
ERA BEBE Br BE BUT EJ Ae 25 ko current->stateiZ AL 7JJETASK. RUNNING 时 ， 应 使 用 此 标志 。 


'GFP. NOIO: 在 存储 设备 的 卖 WO 和 蚀 误 处 理 路 任 中 ， 应 使 用 此 标志 ; 


-GFP KERNEL: 如 果 没 有 任何 理由 使 用 GFP ATOMICAIGFP NOIO， 就 使 用 GFP KERNEL. 


"usb submit urb ©) 调用 成 功 ， 即 URB 的 控制 权 被 移交 给 USB 核 心 ， 该 函数 返回 0;， 人 否则， 返回 钳 


Mm | 


VAS o 

4) Té SC USB MB XE USB ALE Hill d DJ 

5) IKUSB EISE | RS BER, TIT ÓXSIUSB YE A HRS 

第 4) ~5) W HUSB GM EAL a Ta. AUSB f 3E) finn e 
6) 当 URB 完 成 ，USB 主 机 控制 器 驱动 通知 USB 设 备 驱 动 。 


在 如 下 3 种 情况 下 ，URB 将 结束 ，URB 完 成 回调 函数 将 被 调用 《完成 回调 是 通过 usb fill xxx urb 的 参 
数 传 入 的 ) 。 在 完成 回调 中 ， 我 们 通常 要 进行 urb->status 的 判断 。 


.URB 被 成 功 发 送 给 设备 ， 并 且 设 备 返 回 正确 的 人 确认。 如 果 urb->status 为 0， 意 味 看 对 于 一 个 输出 
URB， 数 据 委 成 功 肥 达 ; 对 于 一 个 输入 URB， 请 求 的 数据 个 成 功 收 到 。 


如果 发 这 数据 到 设备 或 从 设备 接收 数据 时 发 生 了 错误 ，urb->status 将 记录 错误 值 。 


'URB 被 从 USB 核 心 “ 去 除 连 接 ”， 这 发 生 在 驱动 通过 usb unlink urb 〈) 或 usb kill urb © 函数 取消 或 
URB 虽 已 提交 而 USB 设 备 被 拔 出 的 情况 下 。 


usb unlink urb () 和 usb kill urb ©) 这 两 个 函数 用 于 取消 已 提交 的 URB， 其 参数 为 要 说 取 消 的 URB 
指针 。usb_unlink urb O 是 异步 的 ， 搞 定 后 对 应 的 完成 回调 会 航 调 用 ;而 usb_kill urb O TII E 
URB 的 生命 周期 并 等 竺 这 一 行为 ， 它 通 瘟 在 设备 的 disconnect ©) 图 数 中 家 调用 。 


当 URB 和 生命 结束 时 《处 理 完 成 或 被 解除 链接 ) ， 在 URB 的 完成 回调 中 通过 URB 结 构 体 的 status 成 员 可 
以 获知 其 原因 ， 如 0 表示 传输 成 功 ，-ENOENT 表 示人 做 usb_kill urb © 攻 死 ，-ECONNRESET 表 示人 补 
usb unlink urb © 杀 死 ，-EPROTO 表 示 传 输 中 发 生 了 bitstuff 错 误 或 者 人 硬件 未 能 及 时 收 到 啊 应 数据 包 
ENODEV 表 示 USB 设 备 已 被 移 除 ，-EXDEV 表 示 等 时 传输 仅 完 成 了 一 部 分 等 。 


对 以 上 URB 的 处 理 步 又 进行 一 个 总 结 ， 图 16.4 给 出 了 一 个 URB 的 完整 处 理 流程 ， 虚 线 框 的 
usb unlink urb () 和 usb kill urb〈》〉 并 不 一 定 会 发 生 ， 它 们 只 是 在 URB 正 在 被 USB 核 心 和 主机 控制 右 处 
理 时 又 被 驱动 程序 取消 的 情况 下 才 发 生 。 


usb alloc urb() 


Pr: usb fill int urb() 
AE: usb fill bulk urb() 
^W: usb fill control urb() 
等 时 : 手工 初始 化 iso urb 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


usb kill urb() 
usb unlink urb() 


urb->complete () 





16.4 ”URB 人 处 理 流 程 


3. 人 简单 的 批量 与 控制 URB 


有 时 USB 张 动 程 序 只 生 从 USB 设 备 上 接收 或 同 USB 设 备 友 达 一 些 简 单 的 数据 ， 这 时 候 ， 没 有 必要 将 


URB 人 创建、 初始 化 、 所 区 、 完 成 处 理 的 整个 流程 走 一通 ， 而 可 以 使 用 两 个 更 简单 的 畏 歼 ， 如 下 所 示 。 


(1) usb bulk msg (©) 


usb bulk msg O 函数 创建 一 个 USB 批 量 URB 并 将 它 发 这 到 符 定 设备 ， 这 个 函数 是 同步 的 ， 它 一 直 等 


待 URB 完 成 后 才 返 回 。usb bulk msg © 函数 的 原型 为 : 


int usb bulk msgistruot usb device '*usb dev, Unsigned xut pipe 
VOI “data, anc Len, ant "actual length, 


int timeout); 


usb dev 人 参数 为 批量 消息 要 发 送 的 USB 设 备 的 指针 ，pipe 为 批量 消息 要 发 送 到 的 USB 设 备 的 端点 ，data 


参数 为 指 癌 要 发 送 或 接收 的 数据 绥 冲 区 的 指针 ，len 参 数 为 data 参 数 所 指 同 的 缓冲 区 的 长 度 ， 
关 或 接收 的 字 币 数 ，timeout 是 及 过 超 时， 以 ji 蕾 es 为 单位 ，0 意 味 痢 永远 等 竺 。 


actual length 


用 于 返回 实际 发 送 
如 果 函 数 调用 成 功 ， 返 回 0;， 和 否则 ， 返 回 1 个 负 的 错误 值 。 


(2) usb control msg () 因数 


usb control msg © KA usb bulk msg O MAA, AWE TED SUIS A ZAR USB Fe RNS 


而 不 是 批量 信息 的 能 力 ， 该 函数 的 原型 为 : 


nnt usb control msgistruct Usb device “dev, unsigned InG pipe, V0 request, 
üo xequesttype, . ule value, . ulo index, void “daca, 


ulo Bize; ant timeogtj); 


dev 指 癌 控 制 消息 发 往 的 USB 设 备 ，pipe 是 控制 消息 要 发 往 的 USB 设 备 的 端点 ，request 是 这 个 控制 消息 


的 USB 请 求 值 ，requesttype 是 这 个 控制 消 恩 的 USB 请 求 类 型 ，value 古 这 个 控制 消 恩 的 USB 消 恩 值 ，index 是 


这 个 控制 消 姑 的 USB 消 姑 索 引 值 ，data 指 癌 要 有 友 迷 或 接收 的 数据 组 冲 区 ，size 是 data 参 数 所 指 问 的 缓冲 区 的 
大 小 ，timeout 十 肥 壕 超时， 以 旱 秒 为 蛙 位 ，0 意 味 着 水 远 等 行 。 


参数 request、trequesttype、value 和 index 与 USB 规 范 中 定义 的 USB 探 制 消 息 直 接 对 应 。 
如 琳 函数 调用 成 功 ， 诠 图 数 返 回 肥 送 到 设备 或 从 设备 接收 到 的 字 节 数 ; 人 否则， 返回 一 个 负 的 错误 值 。 


对 usb bulk msg (2 和 usb_control msg O 函数 的 使 用 要 特别 慎重 ， 由 于 它们 是 同步 的 ， 因 此 不 能 在 
中 了 汤 上 上 下文 和 持 有 目 旋 锁 的 情况 下 使 用 。 而 且 ， 访 函数 也 不 能 被 任何 其 他 函数 取消 ， 因 此 ， 务 必要 使 得 驱 
动 程序 的 disconnect () 函数 治 握 足够 的 信息 ， 以 判断 和 等 每 该 调用 的 结 来 。 


16.3.3. PRI AUT FF EL BL 

在 USB 设 备 驱 动 usb_driver 结 构 体 的 probe〈) 函数 中 ， 应 该 完成 如 下 工作 。 

-探测 设备 的 端点 地 址 、 绥 冲 区 大 小 ， 初 始 化 任何 可 能 用 于 控制 USB 设 备 的 数据 结构 。 

-把 已 初始 化 的 数据 结构 的 指针 保存 到 接口 设备 中 。 

usb set intfdata () 函数 可 以 设置 usb interface 的 私有 数据 ， 这 个 函数 的 原型 为 ; 
EE RR 1 2. 5 Rh RR 

这 个 函数 的 “ 反 函 数 ” 用 于 得 到 usb_interface 的 私有 数据 ， 其 原型 为 : 
eR 

注册 USB 设 备 。 

如 果 是 简单 的 字符 设备 ， 则 可 调用 usb_register dev O ， 这 个 函数 的 原型 为 : 


Int USO register dev(struct usb Interlace ^intf; 
struct usb class driver olaca driver); 


上 述 函 数 中 的 第 二 个 参数 为 usb_class_driver 结 构 体 ， 这 个 结构 体 的 定义 如 代码 清单 16.1$ 所 示 。 
代码 清单 16.1$ usb class driver 结构 体 


lsScruerL usb Class driver qd 


2 char *name; 

3 Charm “(*Cdevnode) (struct device *dev, wmode © mode); 
4 Const. SLEUOL Tile Operations “Lops; 

9 int minor base; 


onl a 


对 于 字符 设备 而 言 ，usb_class_driver 结 构 体 的 fops 成 员 中 的 write © . read ©) ~ ioctl O 等 图 数 的 地 
位 完全 等 同 于 本 书 第 6 草 中 的 他 e_operations 成 员 函 数 。 


如 末 十 其 他 类 型 的 设备 ， 如 tty 设 备 ， 则 调用 对 应 设备 的 注册 函数 。 
在 USB 设 备 驱 动 usb_driver 结 构 体 的 probe() 函数 中 ， 应 该 完成 如 下 工作 。 
释放 所 有 为 设备 分 配 的 痪 源 。 


设置 接口 设备 的 数据 指针 为 NULL。 


注销 USB 设 备 。 
对 于 字符 设备 ， 可 以 直接 调用 usb register dev O PEZ eS AD. n PEE: 


VOLO SD deregister devistruocc usb 12nbterrace Iti 
SLU USD class dover clams OPriver); 


对 于 其 他 英 型 的 设备 ， 如 tty 设 备 ， 则 调用 对 应 设备 的 注销 了 郴 数 。 


163.4 USB 骨 加 程序 


Linux 内 核 源 代 码 中 的 drivervusb/usb-skeleton.c 文 件 为 我 们 提供 了 一 个 最 基础 的 USB 张 动 程 序 ， 即 USB 
骨架 程序 ， 它 可 被 看 作 一 个 最 徐 单 的 USB 设 备 驱动 实例 。 尽 管 具 体 的 USB 设 备 驱动 干 震 万 别 ， 但 其 骨 避 则 
HARNESS. 


B74 4 USB HR EY Husb_driverza WE x, Uf edipi 816.16Pmzs « 


Wists $216.16 USB kee Hyusb driverZà $4 f 


EEC Struct Usb driver Skel driver = 4 
2 .name = "Skeleton", 

S .probe - skel probe, 

4 .disconnect = Skel caSsconnecr,; 
5 .Suspend = skel suspend, 

6 .resume = skel resume, 

7 pre reset = skol pre reset; 
8 «DOS, ToSet = skel post reset, 
E sid table = skel table; 
10 «SUPports autosuspendg = 1, 
11j 


从 上 述 代码 第 9 行 可 以 看 出 ， 它 所 文 持 的 USB 设 备 的 列表 数组 为 skel table[], HE CI VH 16.17 
BIA 


代码 清单 16.17 USB HERE Mid table 


上 SEC“SCEUCE usb device ad kel. table [I] = 4 
2 { USB DEVICE (USB SKEL VENDOR ID, USB SKEL PRODUCT ID) }, 
2 { } /* Terminating entry */ 


4A}; 
5MODULE DEVICE TABLE(usb, skel table); 


对 上 述 usb_driver 的 证 册 和 注销 及 生 在 USB 骨 以 程序 的 模块 加 载 与 彼 载 图 数 肉 ， 其 分 别 调 用 了 
usb register () 和 usb deregister O ， 不 过 这 个 注册 和 注销 的 代码 却 不 用 与 出 来 ， 和 直接 用 一 个 快捷 宏 
module usb _driver 即 可 ， 如 代码 清单 16.18 所 示 。 


代码 清单 16.18 USB 骨 架 程 序 的 模块 加 载 


LOLSgLic BLEU Uso Cryer okol driver = 4 
2 .Name = "skeleton"; 

3 .probe = skel probe, 

4 .disconnect - skel disconnect, 
9 .Suspend - Skel suspend, 

6 .resume = skel resume, 

7 pre Se = Skel pre reset, 
8 „POOE Sesetc = Skel post reset, 
9 «Ld. Galle: = skel table, 
10 sSUPPOrTS dutosuspend = 1; 
11} 
1:2 


lmodule usb driver(skel driver); 


在 usb driver 的 probe () 成 员 函 数 中 ， 会 根据 usb interface 的 成 员 寻 找 第 一 个 批量 输入 和 输出 端点 ， 将 


闹 点 地 址 、 绥 冲 区 等 信息 存 入 为 USB 骨 和 架 程 序 定义 的 usb_skel 结 构 体 中 ， 并 将 usb_skel 实 例 的 指针 传 入 
usb set intfdata() 中 以 作为 USB 接 口 的 私有 数据 ， 最 后 ， 它 会 注册 USB 设 备 ， 如 代码 清单 16.19 所 示 。 


代码 清单 16.19 USB 骨架 程序 的 probe ©) 函数 


lotari c- Int Skel prOve(seruct. Usb: LHuLerrace "LNDePPDQOSy 


2 COUSU. SULUGL USO dev Lee: sd) Ed) 
34 

4 Struct usb Skel #dey; 

2 Bopacc USD: host In eraco ~A are desc, 

6 SLEUCt VSO <endpoins doscrsiptor "endpornuct, 
J S126. t DUPLer Size, 

8 ine. des 

9 int retval = -ENOMEM; 
10 
TX /* allocate memory for our device state and initialize it */ 
12 dew = Rzalloc(srzeor( dev); “Grr KERNEL) 3 
L3 


14 krer rnit(sdev-skref); 
15 sema. nsttedeveoclrimrst semp WRITES: IN PLIGHT); 


16 mutex init(&dev-»io mutex); 

TA Spin: Lock: xurzbp(sdev-c err lock), 

18 Imt usb .-anchor(sdeve-ssuDmituedc); 

19 init wartqueue Head(&dev--bulk in wart); 

20 

A devs udev = Wop get Qey Irne aCe co usbdev(iormperiaseg)s 
22 dev->interface = interface; 

2 

24 /* set up the endpoint information */ 

29 | *€ use only the fvrst bulk-in and bulk-out endpoints: */ 
2:0 lace dest c LUCO rL ICES CUr ALL SOLCON 

Zi LO (in =; U7: da thace dese] desc. DNUMENGDpOLN eS? ERLA d 
28 endpolinbe-wIrI2gce desc = endpoint rI donC 

2 

30 lr (Ldeve-bDulk im endporncAddrT «e 

34. usb endpoint is bulk. sn(endpolnt)y) 4 

32 /* we found a bulk xn endpoint */ 

93 buffer size = usb endpoint maxp(endpoint); 

34 devespDILkE in S126 = DULCIS Sizes 

29 devespulk-rin- endporutAddr- = endpornt--DbEndporntAddress; 
36 deve=-7 bulk in butter = kmallooibulter size, ‘GRP KERNEL); 
S TE 

38 deve-cpulk Im urb = usb alloc urb(0, (GEP KERNEL. 
39 

40 } 

41 

42 it (ldev-2Dulk out endpointAddr -.&& 

43 Usb: endpelnt 5 Duk our (encdporme).) A 

44 I*' we found. a bulk out endpoint *7 

45 dev-^Dulk out -endporntAddr = endporint--»bEndpolintAddress; 
46 ) 

47 } 

48 

49 

50 /* save our data pointer in this interface device */ 

91 Usb Set Ant datat Intec aco; ev) 

ip 

oe /* we can register the device now, as it is ready */ 

54 rebval = ues. register devirsnterrdce; eskel class); 

OD cd 

56 return 0; 

S 

58) 


usb_skel2a fJ As u] UA EZ — TRE BU ERAS, FRE CUTS 8.16.20 B T2 PEZ M VISIT BS 
备 星 号 定制 。 


代码 清单 16.20 ” ”USB 骨架 程序 的 自 定 义 数 据 结构 usb_skel 


lSstruot usb.SEe y 


2 struct usb device *udev; /* the usb device for this device */ 

2 Struct. usb LInberbtgce "InN Ler LACS, /* the interface for this device */ 

4 struct semaphore Limit sem; /* limiting the number of writes in progress */ 
9 SLtruct Usb anchor SubDHLtted; /* in case we need to retract our submissions */ 


6 Strüct arb “hulk In urb; /* the urb to read data with */ 

7 unsigned char *bulk in buffer; /* the buffer to receive data */ 

8 size t bulk in size; [4 the stze ot the receive buffer *7 

9 size t bulk in filled; /* number of bytes in the buffer */ 
10 size t bulk in copied; /* already copied to user space */ 
T | u8 bulk in endpointAddr; A “ne address or the ‘bulk an endpornb */ 
12 -uge bulk out endpointAddr; Tx the, address ot the bulk out endpoint. */ 
dcs JE errors; /* the last request tanked */ 
14 bool ongoing read; /[* m read 1s Going on */ 
1559 spinlock t err TOCE; Js MOC Tor errors. t 
iE S struct krer kref; 
L7 struct mutex io mutex; /* synchronize I/O with disconnect */ 
18 wait queue head t pulk rin wart; * Eo wart for anr- Ongoing read: */ 
19]; 


USB 骨 架 程序 的 断 开 函数 会 完成 与 probe O 函数 相反 的 工作 ， 即 设置 接口 数据 为 NULL， 注 销 USB 设 
备 ， 如 代码 清单 16.21 上 所 示 。 


代码 清单 16.21 USB EP SiR Ay TF eR 


toetati VOrd Sker 01 sconnect (Struct Usb: Lgterprrace *inver race) 


23 

3 Struct usb Skel dev; 

4 int minor = interface-»minor; 

D 

6 dev = Hsp gert rugcrdoata(i:nUterrace)s 

7 Usb set intfdata(rnterrlagce, NULL; 

8 

9 L5 gave back our minor */ 
10 Usb derogi ter dev(inLertaoce, <skel class); 
LI 
T2 A prevent more 17/0- trom Starting ^ 
13 mutex Loockosoevecro mute 
14 dev->interface = NULL; 
to mutex unlock(&dev-»io mutex); 
16 
i usb kslrlr anchored Urbs (edev submrtted); 
iS 

19 /* decrement our usage count */ 
20 kref pul (edev=7kret, skel delete); 
21 
2 dev intodfsergverrace--dev, "USB Skeletor yod now disconnected", minor); 
Zo} 


代码 清单 16.19 第 $4 行 usb register dev (interface, &skel class) 中 的 第 二 个 参数 包含 了 字符 设备 的 
file operations 结 构 体 指针 ， 而 这 个 结构 体 中 的 成 员 实 现 也 是 USB 字 符 设 备 的 另 一 个 组 成 成 分 。 人 代码 清单 
16.22 给 出 了 USB 上 骨架 程 序 的 字符 设备 文件 操作 file_ operations 结 构 体 的 定义 。 


代码 清单 16.22 ”USB 骨 以 程序 的 字符 设备 文件 操作 结构 体 


bota CIC Cone SLEPUCL Ille Opera Lons okel TOPS = 1 
2 .Owner = THIS MODULE; 

3 .read - skel read, 

4 .write = Skel- wr£rte, 

3 .OPDen = skel open, 

6 .release = Skol Telesse, 

1 .flush - skel flush, 

8 .llseek - noop- seek, 

2]; 


由 于 只 是 一 个 象征 性 的 骨架 程序 ，open O 成 员 函 数 的 实现 非常 简单， 它 根 据 usb_ driver 和 次 设备 号 
通过 usb find interface O 获得 USB 接 口 ， 之 后 通过 usb_get intfdata O 获得 接口 的 私有 数据 并 赋 子 file- 
>private data， 如 代码 清单 16.23 所 示 。 


代码 清单 16.23 USB 骨架 程序 的 字符 设备 open〈() 函数 


lstat 


IC AID Ske. Open (Struc mode “inode, PLIU file. tr ile) 
SLIHOL. Usbuskel Sev, 
STLUCe SD Eertoee ~imverlace; 
int subminor: 
int retval = 0; 
subminor = iminor(inode); 
Liver io —cusb Trd anm er aCe (eoe drivery; Subminor).; 
dev = aoh get mrdgstairmnuerrace 
retval = USD: Subopm get 2Hterrgsceiunterrtacel. 
if (retval) 


goto exit; 


2» increment our Usage count for the device =y 
kret get (ecdev=>krer]; 


eave Our OO ECE rn' the file's private. Sbprucbure- “7 
LLOSS pI LV aCe Ndara 09V 


return retval; 


由 于 在 open O 函数 中 并 没有 申请 任何 软件 和 便 件 资产， 所 以 与 open O 图 数 对 应 的 release O K% 
不 用 进行 资源 的 释放 ， 而 只 需 进 行 减 少 在 open O 中 增加 的 引用 计数 等 工作 。 


接 下 来 要 分 析 的 是 读 号 孙 数 ， 前 面 已 经 近 人 到 ， 在 访问 USB 设 备 的 时 候 ， 员 穿 其 中 的 “中 枢 神 经”* 古 URB 


结构 体 。 


在 skel write © 函数 中 进行 的 关于 URB 的 操作 与 16.3.2 小 节 的 描述 完全 对 应 ， 即 进行 了 URB 的 分 配 
(调用 usb alloc urb O ) 、 初 始 化 (调用 usb fill bulk urb O ) 和 提交 《调用 usb submit urb © ) 的 
操作 ， 如 代码 清单 16.24 所 示 。 


代码 清单 16.24 USB 上 骨架 程 序 的 字符 设备 写 图 数 


lstat 


Le S676. kel WELGe(Struce bebe “Erle Const, chiar aser butter, 
Size cU Count; OSI 


SuUPUGL Usb: sk omy: 

int retval = 0; 

Struct: Uro uro = NULG? 

char *buf = NULL; 

SLZ tU WILECSOSLZS = mantcount,. (size L)MAX ITRANSEER); 


der e-mRIleepDPLVate data; 


Spin. Oak- 1ro(edev=serr Lock) > 
retval = dev->errors; 


Spin. unlock: »rqiesdev-cerr lock); 


j* oreate dq urb, and as buffer for 1t, and copy the data to the urb */ 
Urb. USD -ALLOG rb 0 GEP LERNEL)S 


bur = wish ablloccoherentidev-;udev, writesize;, GEB KERNEL; 
Er En Lor ma); 


LE (Copy 1rom User (bur, User buiter, writecuze)) + 
retval = -EFAULI; 


28 goto error; 


29 } 

30 

31 /* this lock makes sure we don't submit URBs to gone devices */ 
3 mutes loocktedeve-lo mutex); 

33 

34 

35 [* uwncbtreloize the urb properly */ 

36 usb tid bulk urbturb, dev--udev, 

24 usb sndbulkpipe(dev--udev,- dev-^bulk our endpoinvAddr), 
38 Düt. WELES er S keL wrie bulk ‘cal loack, uev 
39 urb->transfer flags |= URB NO TRANSFER DMA MAP; 

40 usb. anchor urb(urb,. deve»submrtted);. 

41 

42 /* send the data out the bulk port */ 

43 retval = usb ‘submit .urbD(urb, GEP KERNEL); 

44 mutex unlock (&dev->10 mutex) ; 

45 ES 

46 usb: Tree urb(urb); 

47 

48 return writesize; 

49 

50} 


在 与 函数 中 友 起 的 URB 结 束 后 ， 第 38 行 填 入 的 完成 函数 skel write bulk callback © 3X4 js], 


进行 urb->status 的 判断 ， 如 代码 清单 16.2$ 所 示 。 


代码 清单 16.2$ USB 上 骨架 程序 的 字符 设备 写 操作 完成 函数 


IStatlc vord Skel write Dulk callbackistruct urb "*ufb) 


zt 

3 S Ceu Usb Skel “dev, 

4 

5 dev = urb-»context; 

6 

7 7/* Sync/asyne unlink faults aren't errors *7 

8 if (urb->status) { 

9 if (!'(urb->status == -ENOENT | | 

10 urb->status == -ECONNRESET | | 

11 urb->status == -ESHUTDOWN)) 

LZ dev enrisdevecinterftace- dev, 

1 "Ss - nonzero write bulk status received: 
14 . Je. yx "EO oC 

Lo 

16 eprzn-Jlock(te«devescerr lock 

L4 dev->errors = urb->status; 

18 Spin unbLoock(sdeveserr Fok)? 

19 } 
20 
21 [f eee OU allocated (but ter 7 
22 USD Lreesoserent(urbDesdev,. uro transrer purrer Lengen, 
2. UrDecUIansler DuL ery urbe Lragnseker maj 
24 upiedev-olimrzt sem); 


Zan"; 


> 


ul 


DE 


16.3.5 实例 ， USB 键 盘 驱 动 


在 Linux 系 统 中 ， 键 盘 被 认定 为 标准 输入 设备 ， 对 于 一 个 USB 键 盘 而 言 ， 其 驱动 主要 由 两 部 分 组 成 : 
usb driver 的 成 员 函 数 以 及 输入 设备 张 动 的 nput _event 获 取 和 报告 。 


在 USB 键 盘 设 备 驱 动 的 檬 块 加 载 和 凶 载 函数 中 ， 将 分 列 注 册 和 注销 对 应 于 USB 键 盘 的 usb_driver 结 构 
体 usb kbd driver， 人 代码 清 单 16.26 所 示 为 模块 加 载 与 翻 载 图 数 以 及 usb_driver 结 构 体 的 定义 。 


代码 清单 16.26 USB 键 往 议 备 驰 动 的 模 氛 加载 与 翻 载 图 数 以 及 usb_ driver 结构 体 


Lerdo Struc’ Wb device zd usb: kod ad Cable Dp =4 

2 ( USB INTERFACE INFO(USB INTERFACE CLASS HID, USB INTERFACE SUBCLASS BOOT, 
3 USB INTERFACE PROTOCOL KEYBOARD) }, 

4 { } /* TermTuasting entry */ 
2j; 

6 

7MODULE DEVICE TABLE (usb, usb kbd id table); 

8 

tatie ELIPUOL USD driver usb kod driver e 4 
10 .name = "usbkbd", 
11 probe = usb kbd probe, 
12 .disconnect - usb kbd disconnect, 
13 QUO Pable = usb kbd id table, 
14] 
15 


lomodule usb driver(usb kbd driver); 


fEusb driverl']probe O 函数 中 ， 将 进行 输入 设备 的 初始 化 和 注册 ，USB 键 盘 要 使 用 的 中 断 URB 和 控 
制 URB 的 初始 化 ， 并 设置 接口 的 私有 数据 ， 如 代码 清单 16.27 所 示 。 


代码 清单 16.27 USBS* a IKA probe ©) 函数 


上 EUR Int usb kbo probe (Struct. usb Aneerrace “altace, 


2 Const Struc’ usb device rd ~id) 

2 

4 SLruoct Usb device “dev = imnmtertrgce Lo usbdeyvi1tace)-; 
2 struct usb BoSL Tneridce In Eride; 

6 struct usb endpoint descriptor *endpornt; 

7 struct usb kpd “kba; 

8 Struct input dev *Linput dev; 

9 要 

10 Interface >= LLCO OUr ALL ee CLL? 

11 

12 endpoint = &interface-»endpoint[0].deso; 

1.2 

14 Pipe = usb rcovintprpe(uev, endpoint--pEndbposnDnLAddress)y 
ils. maxp = usb maxpacket(dev, pipe, usb pipeout(pipe)); 
16 

17 kbd = Kzalloc(sizeof(struct usb kbd); GFP KERNEL) 7 
Le 下 

19 
20 if (usb kbd alloc mem(dev, kbd) ) 
2l goto fail2; 
22 
23 kbd->usbdev = dev; 
24 kbde»0ev = INDUL -dev; 
29 T 
26 usb make path(dev, kbd->phys, sizeof(kbd-»phys)); 
2] stricat(kbd-Sphys; "/input0", sizeof (kbd=>phys)); 
28 
29 input dev-»name = kbd->name; 
30 Input, devephys = kbd-»phys; 
EAT usb to input id(dev, &input dev->1d); 
22 LHpub dev- dev: Paren = 61 tace=->dev; 
33 


34 input set drvdata(input dev, kbd); 


Bo 
95 
37 
39 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
Sd 
2 
J9 
54 
JG 
J6 
F 
58 
59 
60 
o 
62 
O3] 


input dev->evbit[0] = BIT MASK (EV KEY) 
BIT MASK (EV REP); 


| BIT MASK (EV LED) | 


input dev--event = usb kbd event; 


input dev-^open = usb. kbd open; 
input dey=>c Lose: = usb KDO closes 


usb ill anit ursD(kDd-ebEg, dev, pape, 

kbd->new, (maxp > 8 9 X Maxp)} 

Usb: kba- Trd; bd endpornut-brInrterv-l), 
kbd-25rxrq-»transrter dma = KOJA -iew dma; 
kbd->irq->transfer flags |= URB NO TRANSFER DMA MAP; 


usb fall GombcPOl unb (kKod=> led, dev; usb Sn rl pipe devy. D3 
(void: .wy “kbd=>er, kbd-sledgsS; T13 
usb: kD ed, kod) 3 
kod-e-led--transrer dma = Kbd=-7leds. dme; 
kbd->led->transfer flags |= URB NO TRANSFER DMA MAP; 


error = 1mpput requester device | kha dew 
if (error) 
Gove: Tarl; 


his 本 = = 
device set wakeup enable(sdev--^dev, 1); 
return 0; 


fEusb driver 的 断 开 函数 中 ， 将 设置 接口 私有 数据 为 NULL、 
码 清单 16.28 所 示 。 


代码 清单 16.28 USB 键 盘 设 备 张 动 的 断 开 函数 


LocdgtlcworQ Usb Koc. UrsconnecLuustrucu usp aneeriace AMINLI) 


Z1 


Striect USO ‘Kod * kbd =: ush- get Titi data 


(intf); 


usb sec 1ntbdata (Inti; NULL); 
if (kbd) { 


USD IULE “ark (KO Se 
Input umreorster -devace (kod=>dev);7 
usb. Kal. urbi(okbde-led); 
usb: bd Lree memirnterrace- to. usbdev(rmtti); 
kfree (kbd); 


kbd) ; 


终止 已 提交 的 URB 并 注销 输入 设备 ， 如 代 


键盘 主要 依赖 于 中 断 传 输 模式 ， 在 键盘 中 断 URB 的 完成 函数 usb kbd irq〈) 中 (通过 代码 清单 16.27 
的 第 4$ 行 可 以 看 出 ) ， 将 会 通过 input report key ©) 报告 按键 事件 ， 通 过 input sync O 报告 同步 事件 ， 
如 代码 清单 16.29 所 示 。 


代码 清单 16.29 ”USB 键 礁 设 备 驱 动 的 中 断 URB 完 成 函数 


Pe baltic VoL SD RDO Ira Cret Xp 759) 


Zc 
3 


oo ~] DD 01 4S 


for (i us 


E A DS ERF) 
input report key(kbd-»^dev, usb kbd. keycode|tr T 224]; 
for (po ce mp use 3a 


if (kbd-»old[i]»3 && memscan(kbd->new + 2, 
ITI (usb: kod: kevoodelkede3colcrrT9 


kbd]? oid) [a6], 


(kbd->new[0] 


Se UN, he. AS 


6)==kbd->new + 8) { 


lnpub report key (kbd->dev,..usb..kKod: keycode | kbd=>old [i] 4.-0)7 


else 
人 
"Unknown key 
kbdesoldllrzrbs 


(scancode %#x) released.\n", 


18 if (kbd->new[i] > 3&&memscan(kbd-»old + 2, kbd-»new[i], 6)==kbd->old + 8) { 
19 if (usb kbd keycode[kbd->new[1] ]) 

20 Lnput report key (kod=--dev, usb Kod keycode (kbd=snewl 2). 1y Lr; 

Zi: else 

27 hid. rnfo(urb--dev, 

23 "Unknown key (scancode $4x) pressed.\n", 

24 kbd-»new[i]); 

26 } 


28 input sync (kbd->dev) ; 


从 USB 键 盘 驱 动 的 例子 中 ， 我 们 进一步 看 到 了 usb_driver 本 身 只 是 起 一 个 挂 接 总 线 的 作用 ， 而 县 体 设 
备 类 型 的 驱动 仍然 是 工作 的 主体 ， 例 如 键盘 就 是 mput、USB 串 口 就 是 tty， 只 是 在 这 些 设备 底层 进行 便 件 访 
问 的 时 候 ， 调 用 的 都 是 与 URB 相 关 的 接口 ， 这 套 USB 核 心 层 API 一 一 URB 的 存在 使 我 们 无 须 关 心底 层 USB 
主机 控制 大 的 其 体 细 广 ， 因 此 ，USB 人 设备 驱动 也 变 得 与 平台 无 天 ， 同 样 的 驱动 可 应 用 于 不 同 的 SoC。 


16.4 USB UDC 与 Gadget 驱 动 


16.4.4 UDC 和 Gadget 驱 动 的 天 键 数 据 结 构 与 API 


这 里 的 USB 设 备 控制 器 (UDC)》 驱动 指 的 是 作为 其 他 USB 主 机 控制 器 外 设 的 USB 硬 件 设 备 上 底层 硬件 
控制 器 的 驱动 ， 该 硬件 和 驱动 负责 将 一 个 USB 设 备 依附 于 一 个 USB 主 机 控制 器 上 。 例 如 ， 当 某 运 行 Linux 
系统 的 手机 作为 PC 的 U 盘 时 ， 手 机 中 的 底层 USB 控 制 器 行使 USB 设 备 控制 器 的 功能 ， 这 时 候 运 行 在 底层 的 
是 UDC 驱动 ， 而 手机 要 成 为 U 盘 ， 在 UDC 驱动 之 上 仍然 需要 另外 一 个 驱动 ， 对 于 USB 大 容量 存储 器 而 言 ， 
这 个 驱动 为 File Storage 驱 动 ， 称 为 Function 驱 动 。 从 图 16.1 左 边 可 以 看 出 ，USB 设 备 驱 动 调用 USB 核 心 的 
API， 因 此 具体 驱动 与 SoC 无 关 ; 同样 ， 从 图 16.1 右 边 可 以 看 出 ，Function 驱 动 调用 通用 的 Gadget Function 
API， 因 此 具体 Function 驱 动 也 变 得 与 SoC 无 关 。 软 件 分 层 设计 的 好 处 再 一 次 得 到 了 深刻 的 体现 。 


UDCJKz/JfüFunctionJ z/J db. FA tZ HJdrivers/usb/gadget H se", Aldrivers/usb/gadget/udc F TRI HJ 
fsl mxc udc.c. omap udc.c. s3c2410 udc.cE X MA SoC FS EHJUDCJIUKZJ, rüdrivers/usb/gadget/function 
F H3&HJf serial.c. f mass storage.c. f rndis.c 等 文件 实现 了 一 些 Gadget 功 能 ， 重 要 的 Function 豫 动 如 下 所 


小。 


Ethernet over USB: 该 驱动 模拟 以 太 网 网 口 ， 它 支持 多 种 运行 方式 一 一 CDC Ethernet〈 实 现 标准 的 
Communications Device Class"Ethernet Model" 协 议 ) ~ CDC Subset 以 及 RNDIS (做 软 公 司 对 CDC Ethernet 的 
AFRRSCEW . 


File-Backed Storage Gadget: 最 第 见 的 U 盘 功能 实现 。 


Serial Gadget: 包括 Generic Serial 实 现 〈 只 需要 Bulk-in/Bulk-out 闹 点 +ep0) 和 CDC ACM 规 范 实 现 。 内 
核 源 代码 中 的 Documentation/usb/gadget serial.txt 文 档 讲 解 了 如 何 将 Serial Gadget 与 Windows 和 Linux 主 机 连 


mo m 


BE. 
Gadget MIDI: 2$9&ALSA MIDI H . 
USB Video Class Gadget 张 动 : ibLinux R AKANA — TS Z&EEHJUSBAT UA SR JS 


Jh. drivers/usb/gadget]i V 334 SW. f — GadgetX- fF AZ (GadgetFS) ， 可 以 将 Gadget API 接 口 暴 
露 给 应 用 层 ， 以 便 在 应 用 层 实 现 用 户 空 间 的 驱动 。 


在 USB 设 备 控制 器 驱动 中 ， 我 们 主要 关心 几 个 核心 的 数据 结构 ， 这 些 数据 结构 包括 描述 一 个 USB 设 备 
ye till as usb_ gadget. UDC#R/FEusb_gadget ops、 描 述 一 个 器 点 的 usb_ ep 以 及 摘 述 妆 点 操作 的 usb_ep_ops 结 
构 体 。UDC 驱 动 围绕 这 些 数 据 结构 及 其 成 员 函 数 而 展开 ， 代 码 清 单 16.30 列 出 了 这 些 天 键 的 数据 结构 ， 它 


们 都 定义 于 include/linux/usb/gadget.h 文 件 。 


代码 清单 16.30 ”UDC 了 驱动 的 关键 数据 结构 


IStruct- Usb gadget 1 


2 SOLUCE WOIEK-SEPUGD work; 

3 /* readonly to gadget driver ae 

4 CONSE *SELUCE uso Gadget: Ops "ODSS 

5 SULLUGE. Usb “ep *ep0; 

6 struct list head ep list; /* of usb ep */ 
7 enum ISD dev ice Speed speed; 

8 enum usb device speed max speed; 

9 enum. usb. device state State, 

139 Conse Char *name; 

LL struct device dev; 

12 unsigned out epnum; 

iS unsigned in epnum; 

14 

19 unsigned eg supported: 

1:6 unsigned ES OCs LZ 

1.7 unsigned No dq perrpherglsr 
io unsigned D- nnp-cendgpletil; 

UNS unsigned a hnp Support. Ly 
20 unsigned a- alt nip Supporct:l. 
2 unsigned qurrk eb out elrgned Sizer; 
22 unsigned is Selfpoweredsl; 
23]; 
24 


ZISCEUCT: USD ep, -4 


2.0 void *ürrver- data; 

21 

28 CONSD^q INE *name; 

29 Const SLINOL USD ep ops OOS} 

ou struct List head ep: lsc; 

31 unsigned maxpacket:16; 

22 unsigned maxpacket Jamies Lo; 

33 unsigned Max Sereams= 1.6; 

34 unsigned mules 2 

SO unsigned maxburst:5; 

36 us address; 

ow Conse o CrUCE Usb endpolnt descrrptor *desc; 

38 CONSUL SLrucb USD Ss ep comp descrzptor -*Comp ‘desc, 

S 

40 

dieters Oat Ops. 

42 TI (*gec frame) (Struce Usb. gadget *)7 

43 INE (wakeup (Struet. usp gadget Fy 

44 IOE (^set sellpowered) (struct: usb gadget ^. Int LTS seltpowered); 
45 TT ("vus SSCS LON) ASer t UuSDCgadgex t. mne IS dcLlVely 
46 TX (^vbus draw) “SUruct: usb gadget- ^, unsigned mA); 

4] Lie (7p Lip): ASUPDUCED “usb gadget. *, Int. LS 00) 

48 Lit (^xopLl)d4sStsucc usb. gadget y 

49 unsigned code, unsigned long param); 

50 void ( "gel COuUrIg Paramo) Sr uct wb ded coni ig Params =) 
Dd IX ("udc Start) (Struct Web gadget *, 


5.2 SeEruce Usb Gadget, driver, «9 


53 TE (^udc. STOPI (SerUucE usb gadget 7257 

24]; 

DOSULEUCT usb sep OPS 4 

56 Ic (^ensple (Se ruce usb: xp “ep, 

9. GODnSC SLLUCE Usb endpoint descriptor esc) 

58 int. (disable) (Seruce usb: ep: ep); 

99 

60 SULucCe Usk: TeGguese “(alloc Tregues ctr XSbPucb TD es “ep, 
61 gtp t ofp flags); 

G2 VOI ("Eres request» (Sthuce tb ep ep; SUIUOC sb: Tregues 56e] 
6:3 

64 ine (Gueuse {Struct Usb ep eps SubUCC USD reguest “reg, 
65 gip- t grip LlagsJ); 

66 int (^dequeue) (struct usb ep "ep; struct usb. request *reg); 
67 

68 Ine sev hal). qStrqcuasb ep “Sp, Gnu. value); 

69 LI. Met wedge) TSUIUCL Usb Sp ED) 

70 

ripe Mic. (Siro G CACTUS) “Struc: USD Gp "ep. 

AP Vom (Pio ol pStEUGD sb Gp Ae) 7 

73]; 


TERAKHJUDCIRSJrB, ii BAT usb gadgeti fiA in iusb ep, ScJkusb gadgetfJusb gadget ops 并 实 


Him usb ep ops. SüXusb _ request。 这 些 事情 都 搞定 后 ， 驶 可 以 广 册 一 个 UDC， 和 它 是 通过 
usb add gadget udc () API 来 进行 的 ， 其 原型 为 : 


Int usb add gadget ude(struce device "parent, Struct usb gadget gadget); 


在 注册 UDC 之 前 ， 我 们 需要 先 把 usb_gadget 这 个 结构 体 类 的 ep list， 即 端点 链表 填充 好 ， 并 填充 好 
usb_gadget 的 usb_gadget ops 以 及 每 个 病 点 的 usb_gadget ops. 


而 GadgetH 的 Function 这 边 ， 则 需要 日 己 填 人 充 usb interface descriptor. usb endpoint descriptor， 合 成 一 些 
usb descriptor header， 并 实现 usb_function 结 构 体 的 成 员 函 数 ，usb_fponction 结 构 体 定义 于 
include/linux/usb/composite.h 中 ， 其 形式 如 代码 清 时 16.31 所 示 。 


代码 清单 16.31 usb function 结 构 体 


Lop5sscb Use Lune LOM. 4 


2 Const, char *name; 

3 Struct usb gadget Strings **strings; 

4 SS 人 

9 SLEUCT USO) decor PL Or Reader SS 

6 Teruo Usb dosorpptor Header AUS descbtbhpUorey 

7 

8 SULUCE USD ocODIrguratxon *COnELG, 

9 

10 SUrUCE USD os desc table “Os 0950 tan le, 

ime unsigned OS desc mn 

L2 

ilies /* Conti guracion management;  dbornd/unmbing: 7 

14 IX (Dine) S rOet USD COnN rg tron T3 
15 SUDucL usb TUNGGON €. 

16 void (^unband) struct usb cOXSLLIguratron “y 
Ll SeLuCce Usb IUHQCREOI TI? 

1:8 yord (“Pee TUAC) (Struct USD Funectron TEL? 
19 struct module smod; 
20 
之 小 /* runtime state management */ 
22 ENE Poer ALU (Seruce USD LUNCELOn 4, 
Zo unsigned interface, unsigned alt); 
24 Laie Get ley (Struce Usb Lune lion Ty 
25 unsigned interface); 
26 Ord ("drosable)struücr Sh rumotron, I7 
2 TNC ("setup (SlLruce Usb Tane LO 
28 Consect ‘SEIUCE usbootrlLseguesc Ww) 
SAS void (^suspend)tsbruor usb-:unctlon -*)7 
30 vord (resume) sUrucL USD LINCLEOD yg 
3l 
32 Fe USB 220 adadritrons 7. 
33 dp (Gel Sratus) (Struck uso: Tune rom, >) 
34 LAE (= TUNG. Suspend) (Struck S55 PONGDION 5 
39 u8 suspend opt); 
36 (E. pr Vater 4 
e /* internals */ 
38 SEO Ise head dian eg 
39 DECLARE BITMAP (endpoints, 32); 

40 CODSD SUPUCL WD ELunoubenm..pnecance ^61: 

41}; 


SB447 WH fs_ descriptorszé 4 XE RIS IP] HRI K; mm ss descriptors 
是 超 高 速 描 述 符 。bind O 完成 在 Gadget 广 册 时 获取 IO 缓冲 、 端 点 等 资源 。 


在 usb_fonction 的 成 员 函 数 以 及 各 种 指 述 人 符 准备 好 后 ， 在 内核 通过 usb_fbnction register O API 来 完成 
Gadget Function 的 注册 ， 广 API 的 原型 为 : 


下 


在 Gadget 张 动 中 ， 用 usb request 结构 体 来 摘 述 一 次 传输 请 求 ， 这 个 结构 体 的 地 位 类似 于 USB 主 机 侧 的 
URB。usb_ request 结构 体 的 定义 如 代码 清单 16.32 所 示 。 


代码 清单 16.32 usb request 结构 体 


KoG UCE USD: Peguei i 


2 vorid spars a Bure used tor data X7 

3 unsigned length; 

4 dma addr t dma;  /* DMA address corresponding to 'buf' */ 
5 

6 SEDUCE: SCatteritst “so; /* a scatterlist fot SG-capable controllers */ 
y unsigned num sgs; 

8 unsigned num mapped sgs; 

9 

10) unsigned Scream LAIG 

ll unsigned no-Interrupt:ls 

T2 unsigned Zerosls 

16 unsigned cohort not Ok Ls 

14 

T3 STO (Complete) (Struct: usb ep “ep, 

145 struct usb request *reg); /* Function called when request completes */ 
17 void *"GOntext; 

18 struct lrst-head a 

L9 
20 BOE status; 
21 unsigned actual; 
2:22] 


在 include/linux/usb/gadget.h 文 件 中 ， 还 封 狼 了 一 些 芝 用 的 API， 以 供 Gadget Function 驱 动 调用 ， 从 而 便 
于 它们 操作 冰点， 如 下 所 示 。 


(1) 使 能 和 禁止 端点 


Static Inline nnt usb. ep enable (sGruct. usb Sp ep)? 
Stable online unc UEN ep drsable(strueot usb ep ep): 


它们 分 别 调用 了 “ep->ops->enable Cep, desc) ; ”和 “ep->ops->disable Cep) ; ". 
(2) 分 配 和 释放 usb request 


GLUPUCL USE “equest. “aloo ep req istruce usb cep. “ep, IUD en, tne Cenauly. Tem), 
SCACCO aniline Slruce usb qegdest TOD eo aroe requeStosLtruct usb “ep, 
gfp t gfp flags); 
Svat. wo: Inline word usb GD rree reguestostruct usb ep “ep; 
Struct usb -reguest regy 
usb ep alloc request (2 和 usb ep free request ) 分 别 调 用 S“ep->ops->alloc request Cep, 
gfp flags) ; ”和 “ep->ops->free request Cep, req) ; ”， 以 用 于 分 配 和 释放 一 个 依附 于 茶 端 点 的 
usb request, Mjalloc ep req COO 则 是 内 能 了 对 usb ep alloc request (ep, GFP ATOMIC) 的 调用 ， 同 时 日 


动 申请 了 usb requesth Zt zs HY A f£ © 
(3) 提交 和 取消 usb_request 


Starre line: nt Ssh: epo dqueueiotrqot qb -ep "ep, 


etsuct Usb request “red, grp Corp T LagS)? 
Stabile iene. Ie Usb: ep deguster Usb. ep "ep Struct usb Teqguesc Leg) 


它们 分 别 调用 “ep->ops->queue Cep. req, gfp flags) ; ”和 “ep->ops->dequeue Cep. req) ; ”。 
usb ep queue 困 数 告诉 UDC 完成 usb request ORSR) ， 当 请 求 被 完成 后 ， 与 该 请 求 对 应 的 
completion O PR ANS Ae Us] H - 


(4) 端点 FIFO 管 理 


Stave LN Le Lm usb Cp: Tero -Stauus (Se Uoi sb ep ep) 
SLSUDIC inane. word usb ep rito flush (Struce. Usb: ep ep) 


HU 4 Val A “‘ep->ops->fifo status Cep) ”返回 目前 FIFO 中 的 字 节 数 ， 后 者 调用 “ep->ops- 
>fifo flush Cep) ”以 冲刷 挥 FIFO 中 的 数据 。 


(5) mA AACS 


SULUCE UBD Gp *usD Gp Utomo 
SC TUCE Ush gadget "gadget; 
struct usb endpoint descripuor ges); 


Ms d ma à f AS FA Pal ie A EUR 2 BG — T E A o 


16.4.2 fl: Chipidea USB UDC 驱动 


drivers/usb/chipidea/udc.czé Chipidea USB UDC 驱 动 的 主体 代码 ， 代 码 清 单 16.33 列 出 了 它 的 初 妈 化 法 程 
部 分 。 它 定义 了 usb ep ops. usb gadget ops， 在 了 最 终 进行 usb add gadget ude O 之 前 填 序 好 了 了 UDC 的 妆 
[VIE o 


代码 清单 16.33  Chipidea USB UDC 驱动 实例 


Letatic Const StEtUcc usb ep Ops Usb ep Ops = 4 
2 .enable =. Bp enaple, 
3 .disable = ep disable, 
4 satLOC Peques: = Gp abc reguest, 
9 OLEO pequest = 6p free request; 
6 . queue — ep queue; 
7 . dequeue = ep dequeue, 
8 (Set Hale = (6p set Harl, 
> .Set wedge — ep set wedge, 
LU AiO. ESN =p LLO lish, 
LLF3 
12 
loSsStatlo Cono SLPUCLt usb gadget Ops usb gadget ops = { 
14 -Dae SeSsiOn— OI HOC Vous session, 
1:5 .Wakeup — ci udc wakeup, 
16 .Set selfpowered - ci udc selfpowered, 
La «pullup = C1 ude pullup, 
18 .vbus draw = GL sudo vous draw, 
US „Udo Start = OL ude start, 
20 dC STOP = cL Ue slop, 
21}; 
22 
-toatl Lae Init oepstotrucb cr Bdre FEL) 
241{ 
25 int retval = 0, i, J} 
26 
27 for (1 = 07 2 < cr-^hw ep max/2; iv) 
28 for (j = RX; j <= TX; j++) { 
29 int k = i + j * ci->hw ep max/2; 
30 SUPUCL CL hw ep *“hwep = &oro^cr hw- eplkl; 
31 
32 
33 
34 hwep->ep.name = hwep->name; 
Cr hwep->ep.ops = &usb ep ops; 
35 
37 Usb. 6p Set mdxpacket limrt(ehwepeoep, (unsigned SlorbrL)e0); 
38 
20 
40 
Al f> 
42 * set up shorthands for epO0 out and in endpoints, 
43 ^ UON" t aud DO Sadget's ep Liot 
44 aJ 
45 if (1 == 0) { 
46 if (j == RX) 
47 ci-»epOout = hwep; 
48 else 
49 ci->epO0Oin = hwep; 
50 
Dl usb ep set maxpacket limit(&hwep-»ep, CTRL PAYLOAD MAX); 
Du continue; 
53 } 
54 
Do last. add Larl(isünwep--ep.ep.lrist, &OLlcsogadgebt.ep- dist); 
96 } 
5 
58return retval; 
39] 
60 
OlStGaric ne ude StarLt(struct Ci ndro vel) 
621 
63 — 
64 ci->gadget.ops = &uso gadget ops; 
65 ci->gadget.speed = USB SPEED UNKNOWN; 
66 Ci->oadgel.Max speed = USB SPEED HIGH; 
67 GIC CgadgeLt.Ls 0tg = Qoqs GU L s 03 


68 ci->gadget.name = ci->platdata->name; 


o9 


70 INIT LLST HBADUSGI-cgadgetsep LSC)? 
gx 

E 

T3 

74 Letvak ce LOLE eps. (er); 

TS if (retval) 

TG goUO ETO. > 

77 

T ci->gadget.epO = &ci->ep0in->ep; 

V9 

80 retval = usb add gadget udctidev, &cr-^2gadget); 
81 


S2 


16.4.3 Æl: Loopback FunctionJ jJ 


drivers/usb/gadget/function/f loopback.c 实 现 了 一 个 最 简单 的 Loopback 豫 动 ， 它 完成 的 主要 工作 如 下 。 


1) 实现 usb function 实 例 及 其 中 的 成 员 函 数 bind ©) 、set alt © 、disable © ~ free func O 等 成 员 
PS T. 


2) HER USBAP WHY AC ES tk He A fai usb interface descriptor. "m; rijXx^jusb endpoint descriptor 


3) 发 起 usb request 处 理 usb request 的 完成 并 回环 。 


代码 清单 16.34 是 抽取 了 drivers/usb/gadget/function/f loopback.c X: (4 P fe sc Hit — 4 Function i Ka 3 As Zi 4 
Hb EIN. 


代码 清单 16.34 Loopback USB Gadget Function 1X5) S fill 


lstatloc Struct. Usb. Interrace descriptor loopback BEI 1 

2 .bLength = sizeof loopback: inti, 

3 .bDescriptorType = USB DT INTERFACE; 

4 

F .bNumEndpoints = P 

6 .bInterfaceClass - USB CLASS VENDOR SPEC, 

7 /* .ilnterface = DYNAMIC */ 

9]; 

9 

LOStTaACLe Struct USD endpoint desScripLor ts Joop source desc = q 
11 .bLength = USB DT ENDPOINT SIZE, 

t2 .bDescriptorType = USB DT ENDPOINT, 

1.3 

14 .bEndpointAddress - USB DIR IN, 

15 .bmAttributes = USB ENDPOINT XFER BULK, 

16]; 

LiSbatle SuIUOL usb descriptor Header FIS loopbaock descs| | = 4 
18 (Struct usb descriptor header *) &loopback anti, 

19 (Struct usb descriptor. header ^) «fs loop sink desc, 
20 (GLruct usb descriptor Header *) fs LOOP source desc, 
ZA NULL, 
224] 
29S ta LIO BUDEHOL USD String Strange loopback |. = 1 
24 | = "loop input to output", 
25 { ] /* end of list */ 
26j; 
2 
209ta CLO Struct USD gadget Strings SUCrIggtab loop = | 
29 .language = 0x0409, [* en-us */ 
30 *SErLngs = Strings loopback, 
31}; 
32 
Eee Struct uso gadget strings “Loopback scESDgs[l]p =4 
34 &stringtab loop, 
35 NULL, 
B9] 
21 
S30Stat1c int loopback bind (Seruce. Usb Contaguration ^O, Struct usb TüuncLlon ~I) 
294 

40... 

4lloop-»in ep = usb ep autoconfigí(cdev-»gadgeL, rts loop source desc); 
42... 


43loop-^out ep = usb ep autoconfig(cdev-»gadget, &fs loop sink desc); 
44if (!loop-»out ep) 


45 goto autoconf tail; 
46loop-»out ep-»driver data = cdev;/* claim */ 
4] 


48/* support high speed hardware */ 
49hs loop source desc.bEndpointAddress = 


bo loop-csource desc.DbEndpornuAOGdress; 

SUS Loop sink desc. bEndpornchddress = fs. boop.sank. desceDEndporHbtAddEess; 
52 

53/* support super speed hardware */ 

5455 loop source desc.bbndpointAddress = 

39 re 1OOp: SOurCce dese. DEndpolnvAddress; 

OSs: JIoop sink desc. bEndpoincAddress. = fs. loop sink: desc.DEndporntaodress; 
Sy 

DOret cm USD assign cdeserrotorsTb, ES: Loopback, ‘descs, Ms. loopback descs, 

29 ss IloopDOock.;gdesecs); 

Obras s 

olreturn 0; 

62] 

63 

OSASCQULIC word Lb Tree Tunc (Struct. us). STunctron E) 

651 

OO gs 

o.usD Tree all descriptors); 

本 

69 } 

70 

TIStACLC "SL Heb unco * loopback ALLOC ST UCC Web cDOBCUBOD Inetance I) 
VA 

Ts 23d 

74 loop--runctrion.name = "loopback"; 

75 LOOP- cLUuReLloHsbund = Loopbaek band, 

BG IOOP= TUNO LLON set a LE e Loopback Set ubt; 

Jd loopse^runctronsdasable = loopback disable; 

78 Loopeesrumneurohgstbipgse c qoo0poNgexcgorsngss 

J9 

80 LOOPS LUNeCt LOM. Tree: Tune — Jb -Troen Tune; 

Su 

82 recurn, &Loop--runctron; 

93: 

84 

oosbcadLrc vord IoopDackocomplete(struetc. usb ep rep- Struct usb reguest “req) 
86 { 

OI weak 

88 } 

89 

JOS tati “Ine. enable endpornuistruct. usb Composite dev “cdev, struct T )o0pback. “loop, 
2 SLPUCU USD ep “ep) 

9 

JCT: Usb request peg; 

94... 

P»oresult = Contig. cep DY epeed(iodevecgadgebty ELO- Tunet), Cp); 

96 

oJresulrt = usb.ep enable(ep) 7 


98 
3JJep= -driver data = 100p? 
100 
LOlTfor (L = 07 1 € glen && result == 0; a+) 4 
102 reg e Lb arloe epi eq (ep, UJ7 
LOS if (!req) 
104 goto tarli; 
LOS 
106 reg-ccoomplete = loopback Complete, 
EO result = geb ep queue(ep, Ted; GFP ATOMIC), 
LOS if (result) { 
109 ERROR (cdev, "%S queue req --> %d\n", 
IL ep-»name, result); 
Du qoto fairi; 
1.12 } 
113) 
114 
Ts es 


LLG} 


165 USB OTGUEKZJJ 


USB OTG 标 准 在 完全 兼容 USB 2.0 标 准 的 基础 上 ， 它 允许 设备 既 可 作为 主机 ， 也 可 作为 外 设 操作 ， 
OTG 新 增 了 主机 通令 协议 (CHNP) 和 对 话 请 求 协议 (SRP) à- 


在 OTG 中 ， 初 始 主机 设备 称 为 A 设 备 ， 外 设 称 为 B 设 备 。 可 用 电缆 的 连接 方式 来 决定 初始 角色 。 两 用 
设备 使 用 新 型 Mini-AB 插 座 ， 从 而 使 Mini-A 插 头 、Mini-B 插 头 和 Mini-AB 插 座 增添 了 第 5 个 引 脚 CID) ， 以 
用 于 识别 不 同 的 电 绑 姗 点 。Mini-A 插 头 中 的 了 D 引 脚 接 地 ，Mini-B 插 关中 的 卫 引 脚 浮 空 。 当 OTG 议 备 检 训 
到 接地 的 ID 引 脚 时 ， 表 示 默 认 的 是 A 设 备 〈 主 机 ) ， 而 检测 到 ID 引 脚 浮 空 的 设备 则 认为 是 B 设 备 〈 外 
设 ) 。 系 统一 旦 连接 后 ，OTG 的 角色 还 可 以 更 换 ， 以 采用 新 的 HNP 协 议 。 而 SRP 人 允许 B 设 备 请 求 A 设备 打 
开 VBUS 电 源 并 局 动 一 次 对 话 。 一 次 OTG 对 话 可 通过 A 设备 提供 VBUS 电 源 的 时 间 来 确定 。 


E Linux 2.6.9 开 始 ，OTG 相 关 源 代码 已 经 被 包含 在 内 核 中 了 ， 新 增 的 主要 内 容 包 括 : 
(12 UDC 驱动 端 添 加 的 OTG 相 关 属 性 和 函数 


struct usb. gadget 4 


unsigned io Org: 


unsigned ls a peripheralil; 
unsigned b hnp enables; 
unsigned a nnp Supporti 
unsigned aalt NNP supports; 


); 

int usb gadget ‘vous connect (struc. usb gadget. *gadget); 

int Usb. gadget -vbus disconnectistruct usb gadget *gadget); 

int usb gadget vbus draw(struct usb gadget *gadget, unsigned. mA); 
/* 控制 USB D+ 的 上 拉 */ 

Ine usb gadget connect (Struct usb gadget gadge); 

Int. USO gadget disconnecc(strucc usb gadget “gadget; 

/* iXRMZUSB host, 官 也 会 党 试 SRE 会 证 */ 

mnt. usb gadget wakeup(struct usb gadget ^gadget); 


(2) GadgetJX a) vig ZS JH HJOTGATH X Je PE RU PA A 


如 果 gadget->is_otg 字 段 为 呐 ， 则 增加 一 个 OTG 描 述 符 :通过 printk () 、LED 等 方式 报告 HNP 可 用 ; 
当 挂 起 开始 时 ， 通 过 有 用户 界面 报告 HNP 切 换 开 始 〈B-Peripheral 到 B-Host 或 A-Peripheral 到 A-Host) 。 


(3) 主机 侧 添 加 的 OTG 相 关 属 性 和 函数 
在 USB 核 心中 新 增 了 关于 OTG 设 备 枚 举 的 信息 : 


struct usb. Dus + 


UD DUO Port; /* 0, or index of OTG/HNP port */ 
unsigned is b host:1; /* true during some HNP roleswitches */ 
unsigned D up enuabletl; /* OTG: did A-Host enable HNP  */ 


为 了 实现 HNP 需 要 的 挂 起 /恢复 ， 新 增 如 下 通用 接口 : 


Tie Usp Suspend device (Suruc usb ege = 和 
int Usb resume devrceisrrugo Usb dewros-cdgdewv 


(4) 3SOTGJIJBE UHR ML XS Zu PI usb otg 


SULUCE usb org 4 
u8 default «a; 
St EE "hy “Ony; 
/* old usb phy interface */ 
人 *^usb phy; 
STEUCT. usb Dus MNOS Ly 
STUC “Usb. gadget *gadget; 
enum: USD Eg State Stare, 
A Dimdyunbind. he ‘host controller +7 
Ic (7SSG. NOS) (SULUCE Usb: og “otg; Struct Usb bus THOST? 
A Sap docanbdg mno. the peripheral Qonbtroller. t7 
LNE (^set perppheral)dog trug web ot oto 
Struct usb-gauget ^gadget)sy 
[A arr rective for A-perripheral,. rgnored. tor B devices */ 
POE se (SBbPUucct USD ObDg *9tg. DOOL enabled); 
L* Tort B devices only: “start session with A-Host */ 
LIE ee 
人 
ITE 人 


usb otg JA —JTEUSBHJphy?m S, HAT, MP fzHdrivers/usb/musb/musb gadget.c. 
drivers/usb/phy/phy-tw16030-usb.c. drivers/usb/phy/phy-isp1301-omap.c. drivers/usb/phy/phy-fsl-usb.c#l 
drivers/usb/musb/musb gadget.c 等 驱动 中 可 以 找到 类 似 的 例子 。 


16.6 W4 


/AN —H 


USBJKz/]; JjUSB XE BLUR Z/JRIUSB i A UJ, GRA SHIUSB FE Le Hl 48 FG OHCIS nie, JB XL 
驱动 的 绝 大 部 分 工作 都 可 以 沿用 通用 的 代码 。 


对 于 一 个 USB 设 备 而 言 ， 它 全 少 具 备 两 章 吴 份 :， 让 和 完 它 古 “USB” 的 ， 其 次 它 古 “ 目 己 ”的 。USB 人 设备 
是 “USB” 的 ， 指 它 挂 接 在 USB 总 线 上 ， 其 必须 完成 usb driver 的 初始 化 和 注册 : USB 设备 是 “和 白 己 ”的 ， 意 味 
着 本 里 可 能 是 一 个 字符 设备 、tty 设 备 、 网 络 设 备 等 ， 因 此 ， 在 USB 设 备 驱动 中 也 必须 实现 符合 相应 框架 的 
代码 。 


USB 议 备 张 动 的 目 身 设备 张 动 部 分 的 谈 写 等 操作 这 程 有 其 特殊 性 ， 即 以 URB 来 员 罕 始终 ， 一 个 URB 的 
生命 周期 通 币 包 含 创 建 、 初 始 化 、 提 交 和 被 USB 核 心 及 USB 主 机 传递 、 完 成 后 回调 冰 数 被 调用 的 过 程 ， 当 
然 ， 在 URB 被 驱动 所 交 后 ， 也 可 以 被 取消 。 


在 UDC 和 Gadget Function 侧 ，UDC 天 心 质 层 的 便 件 操作 ， 而 Function 驱 动 则 只 是 利用 带 用 的 API， 并 通 
过 usb request JE RUDCYKBI2 H.. 


第 17 音 “IC、SPI、USB 驱 动 架构 类 比 
本 章 导读 


本 章 类 比 FC、SPI、USB 的 结构 ， 从 而 进一步 帮助 读者 理解 本 书 第 2 章 的 内 容 ， 也 进一步 实证 Linux 驱 
BAA A SR TSE 


171 EC、SPI、USB 驱 动 架 构 


根据 图 12.4，Linux 倾 癌 于 将 主机 端的 驱动 与 外 设 端的 驱动 分 离 ， 而 通过 一 个 核心 层 将 某 种 总 线 的 协 

议 进 行 抽象 ， 外 设 端的 驱动 调用 核心 层 API 间 接 过 渡 到 对 主机 驱动 传输 函数 的 调用 。 对 于 FC、SPI 这 类 不 

具备 热 插 拔 能 力 的 总 线 而 言 ， 一 般 在 arch/arm/mach-xxx 或 者 arch/army/bootdts 中 会 有 相应 的 板 级 描述 信息 ， 
描述 外 设 与 主机 的 连接 情况 。 


Linux 的 各 个 子 系统 都 呈现 为 相同 的 特点 ， 表 17.1 类 比 了 [KC、SPI、USB 驱 动 架 构 ， 其 他 的 PCI 等 都 是 
类 似 的 。 


表 17.1 IC、SPI、USB 驱 动 架构 的 类 比 









| 描述 主机 的 数据 结构 usb hcd 
机 机 驱动 传输 成 员 咖 数 master xfer() urb enqueue() 


由 Pc 控制 器 挂 接 的 总 线 H SPIES 制 器 挂 接 的 总 | H USB 控制 器 挂 接 的 总 


侧 | 主机 的 枚 举 方法 
| 决定 (一般 是 platform) 线 决定 (一 般 是 platform ) | 线 决 定 


J 


- 股 是 platform) 






核 | 描述 传输 协议 的 数据 结构 spi message URB 

HP iso. ] Sm spi sync() 
传输 API 12c transfer() l usb submit urb() 

层 spi async() 

外 | 外 设 的 枚 举 方法 usb driver 

n 

lx BE i ; : . 

a ESMAI RE i2c client spi device usb device 

项 

板 | 非 设 备 树 模式 spi board info 总 线 具 备 热 搬 拔 能 力 

级 


在 TC 控制 器 ES 在 SPI 控制 器 节点 下 添 
ü 总 线 具 备 热 插 拔 能 力 


FR 加 子 节点 


Hii 


对 于 USB、PCI 等 总 线 而 言 ， 由 于 它们 有 具备 热 插 拔 能 力 ， 所 以 实际 上 不 存在 类 似 FKC、SPI 这 样 的 板 级 
摘 述 信息 。 换 句 话 说 ， 即 便 是 有 这 类 信息 ， 其 实 也 没有 什么 用 ， 因 为 如 果 写 了 板子 上 有 个 U 盘 ， 但 实际 上 
没有 ， 其 实 反而 是 制造 了 麻烦 ;相反 ， 如 果 没 有 写 ，U 盘 一 旦 插入 ，Linux USB 子 系统 会 自动 探测 到 一 个 U 


hn 


TIL o 


同时 我 们 注意 到 ，FC、SPI、USB 控 制 器 虽然 给 别人 提供 了 总 线 ， 但 是 其 实 自己 也 是 由 它 自 身 依 附 的 
总 线 枚 举 出 来 的 。 比 如 ， 对 于 SoC 而 言 ， 这 些 控制 右 一 般 是 直接 集成 在 必 瞩 内 部 ， 通 过 内 存 访 问 指令 来 访 
问 的 ， 因 此 它们 目 映 是 通过 platform driver. platform device 这 种 模型 枚 举 进 来 的 。 


17.2”FC 主 机 和 外 设 眼 里 的 Linux 世 界 


PC 控制 器 所 在 驱动 的 platform driver 与 arch/arm/mach-xxx 中 的 platform device (或 者 设备 树 中 的 节点 ) 
通过 platform 总 线 的 match © 函数 匹配 导致 platform driver.probe O 执行 ， 从 而 完成 FC 控制 器 的 注册 ; 而 
I*C 上 面 挂 的 触摸 屏 依 附 的 i2c_driver 与 arch/arnymach-xxx 中 的 i2c board info 指 向 的 设备 (或 者 设备 树 中 的 
节点 ) 通过 IC 总 线 的 match() 函数 匹配 导致 2c driverprobe O 执行 ， 从 而 使 触摸 屏 展开 。 


图 17.1 虚 线 上 方 部 分 古 i2c_adapater 眼 里 的 Linux 世 界 ; 下 方 部 分 古 i2c_client 腿 里 的 Linux 世 界 。 其 实 
Linux 中 的 每 一 个 设备 通过 它 依 附 的 总 线 航 枚 举 出 来 ， 尽 管 它 目 映 可 能 给 别人 提供 总 线 。 
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图 17.1 IC 主机 和 外 设 眼 里 的 Linux 世 界 


第 18 音 ARM Linux 设 备 树 


本 和 章 将 介绍 Linux 设 备 树 CDevice Tree) 的 起 源 、 结 构 和 因为 设备 树 而 引起 的 驱动 和 和 BSP 变更 。 
18.1 节 阐明 了 ARM Linux 为 什么 要 采用 设备 树 。 


18.2 区 详细 放 析 了 设备 树 的 结构 、 克 点 和 属性 ， 设 备 树 的 编 详 方法 以 及 如 何 用 设备 树 来 持 述 板 上 的 设 
、 设 备 的 地 址 、 设 备 的 中 断 亏 、 时 钟 等 信息 。 


18.3 节 讲解 了 采用 设备 树 后 ，BSP 和 张 动 的 代码 需要 怎么 改 ， 哪 些 地 方 变 了 。 
18.4 广 补充 了 一 些 与 设备 树 相 关 的 API 定 义 以 及 用 法 。 


本 章 内 容 是 步 入 Linux 3.x 时 代 后 ， 般 入 云 Linux 工 程 师 必 备 的 知识 体系 。 


18.1] ARM 设 备 树 起 源 


在 过 去 的 ARM Linux 中 ，archy/arm/plat-xxx 和 arch/arm/mach-xxx 中 充斥 着 大 量 的 垃圾 代码 ， 很 多 代码 只 
是 在 描述 板 级 细节 ， 而 这 些 板 级 细节 对 于 内 核 来 讲 ， 不 过 是 垃圾 ， 如 板 上 的 platform 设 备 、resource、 
i2c board info. spi board info 以 及 各 种 人 硬件 的 platform data。 读 者 若 有 兴趣 ， 可 以 统计 一 下 常见 的 
Ss3c2410、gs3c6410 等 板 级 目录 ， 代 但 量 在 数 万 行 。 


设备 树 是 一 种 摘 述 使 件 的 数据 结构 ， 它 起 源 于 OpenFirmware (OF) 。 在 Linux 2.647, ARMATA 
极 硬 件 细节 过 多 地 被 硬 编 码 在 arch/arm/plat-xxx 和 arch/arm/mach-xxx 中 ， 采 用 设备 树 后 ， 许 多 硬件 的 细节 可 
以 直接 通过 它 传 递 给 Linux， 而 不 再 需要 在 内 核 中 进行 大 量 的 宛 余 编码 。 


设备 树 由 一 系列 人 补 命 名 的 节点 (Node) 和 属性 (Property) 组 成 ， 而 节点 本 里 可 包含 子 节 点 。 所 谓 属 
性 ， 其 实 束 是 成 对 出 现 的 名 称 和 值 。 在 设备 树 中 ， 可 朱 述 的 信息 包括 (原先 这 些 信 息 大 多 被 便 编 码 在 内 核 
中 ) : 


-CPU 的 数量 和 类 别 。 
内存 基地 址 和 大 小 。 
忆 线 和 桥 。 

-外 设 连 接 。 

-中断 控 制 器 和 中 断 使 用 情况 。 
-GPIO 控 制 器 和 GPIO 使 用 情况 。 
时钟 控 制 器 和 时 钟 使 用 情况 。 


它 基 本 上 就 是 画 一 棵 电路 板 上 CPU、 总 线 、 设 备 组 成 的 树 ,Bootloader 套 将 这 桔 树 配 递 络 内 核 骨 然 局 
内 核 可 以 识别 这 棵 树 ， 并 根据 它 展 开 出 Linux 内 核 中 的 platform device. i2c client. spi device 等 设备 ， 而 这 
些 设备 用 到 的 内 存 、 耻 Q 等 资源 ， 也 被 传递 给 了 内 核 ， 内 核 会 将 这 些 资 源 绑 定 给 展开 的 相应 的 设备 。 


18.2 ”设备 树 的 组 成 和 结构 


整个 设备 树 替 涉 面 比较 广 ， 即 增加 了 新 的 用 于 摘 述 设备 人 硬件 信息 的 文本 格式 ， 又 增加 了 编译 这 个 文本 
的 工具 ， 同 时 Bootloader 也 需要 文 持 将 编 详 后 的 说 备 树 传递 给 Linux 内 核 。 


182.1 DTS、DTC 和 DTB 等 


1.DTS 


文件 .dts 是 一 种 ASCI 文 本 格式 的 姑 备 树 拍 述 ， 此 文本 格 去 非常 人 性 化 ， 适 合 人 其 的 阅读 习惯 。 基 本 
上 ， 在 ARM Linux 中 ， 一 个 .dts 文 件 对 应 一 个 ARM 的 设备 ， 一 般 放 置 在 内 核 的 arch/arm/boot/dts/ 目 录 中 。 值 
得 注意 的 是 ， 在 arch/powerpc/boot/dts、arch/powerpc/boot/dts、arch/c6x/boot/dts、arch/openrisc/boot/dts 等 目 
录 中 ， 也 存在 大 量 的 .dts 文 件 ， 这 证 明 DTS 绝 对 不 是 ARM 的 专利 。 


由 于 一 个 SoC 可 能 对 应 多 个 设备 《一 个 SoC 可 以 对 应 多 个 产品 和 电路 板 ) ， 这 些 .dts 文 件 努 必须 包 侣 许 


多 共同 的 部 分 ，Linux 内 核 为 了 简化 ,把 SoC 公 用 的 部 分 或 者 多 个 设备 共同 的 部 分 一 般 提炼 为 .dtsi， 类 似 于 
C 语 言 的 头 文 件 。 其 他 的 设备 对 应 的 .dts 就 包括 这 个 .dtsi。 辟 如， 对 于 VEXPRESS 而 言 ，vexpress-v2m.dtsi 就 
f vexpress-v2p-ca9.dtsP/r5| HY, vexpress-v2p-ca9.dts "Il P — 417 4X3: 


/include/ "vexpress-v2m.dtsi" 


当然 ， 和 C 语 言 的 头 文 件 类 似 ，.dtsi 也 可 以 包括 其 他 的 .dtsi， 璧 如 几乎 所 有 的 ARM SoC 的 .dtsi 都 引用 了 


skeleton.dtsl。 


文件 .dts (或 者 其 包括 的 .dtsi〉 的 基本 元 系 即 为 前 文 所 述 的 三 把 和 属性 ， 代 人 码 消 蛙 18.1 给 出 了 一 个 设备 
树 结 构 的 柑 版 。 


代码 清单 18.1 设备 树 结构 模版 


~ 
“a 


1 

d nodel { 

3 a-string-property = "A string"; 

4 a-string-list-property = "first string", "second string"; 
E a-byte-data-property = [0x01 0x23 0x34 0x50]; 

6 child-nodel1 1 

i Irirst-ochi1lg-propercy; 

8 second-chiid-property = «1l»; 

9 a-string-property = "Hello, world"; 
10 }; 
11 child-node2 { 

12 ^; 

URS }; 

14 node2 { 

La an-empty-property; 

16 a-cell-property = «12 3 4»; /* each number (cell) is a uint32 */ 
L7 child-nodel { 

18 a 

19 a 

20] 


上 上 述 .dts 文 件 并 没有 什么 真实 的 用 途 ， 但 它 基 本 表征 了 一 个 设备 树 源 文件 的 结构 : 


1 个 root 节 点 VM"; root 节 点 下 奇伟 一 系列 子 节点 ， 本 例 中 为 nodel 和 node2; 节点 nodel 下 义 含 有 一 系列 子 
节点 ， 本 例 中 为 child-node1 和 child-node2; 各 贡 点 都 有 一 系列 属性 。 这 些 属 性 可 能 为 空 ， 如 an-empty- 


property; 可 能 为 字符 串 ， 如 a-string-property; 可 能 为 字符 串 数组 ， 如 a-string-list-property; 可 能 为 
Cells〈 由 u32 整 数组 成 ) ， 如 second-child-property; 可 能 为 二 进 制 数 ， 如 a-byte-data-property。 


下 面 以 一 个 最 简单 的 设备 为 例 来 看 如 何 写 一 个 .dts 文 件 。 如 图 18.1 所 示 ， 假 设 此 设备 的 配置 如 下 : 
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图 18.1 Wee pa NU ME 


14 XU ARM Cortex-A932 hr Ab XE 28; ARM 本 地 总 线 上 的 内 存 映 射 区 域 分 布 有 两 个 串口 (分 别 位 于 
0x101F1000 和 0x101F2000〉 、GPIO 控 制 器 (位 于 0x101F3000〉 、SPI 控 制 器 〈 位 于 0x10170000) . P Wr 
Pillar CAT O0x101400000 和 一 个 外 部 总 线 酉 : 外 部 总 线 桥 上 义 连 捷 J 了 SMC SMC91111 以 太 网 〈 位 于 
0x10100000) 、C 控 制 器 〈 位 于 0x10160000) 、64MB NOR Flash“〈 位 于 0x30000000) ; 外 部 总 线 桥 上 
连接 的 IFC 控 制 器 所 对 应 的 FC 总 线 上 又 连接 了 Maxim DS1338 实 时 钟 《IC 地 址 为 0x$8) 。 


对 于 图 18.1 所 示人 使 件 结构 图 ， 如 采用 “dts” 朱 人 述 ， 则 其 对 应 的 “dts”" 文 件 如 代 但 清单 18.2 所 示 。 


代码 清单 18.2 ”参考 便 件 的 设备 树 文 件 


NS 
“a 


L 
2 compatible = "acme,coyotes-revenge"; 
3 #address-cells = «1»; 
4 #Size-cells = «1»; 
m interrupt-parent = «&intc»; 
6 
J cpus 4 
8 #address-cells = «1»; 
9 #Ssize-cells = «0»; 
10 cpu@0O ( 
11 compatible = "arm,cortex-a9"; 
HE, reg = «0»; 
13 }; 
14 cpu@l { 
125 compatible = "arm,cortex-a9"; 
16 reg = «1»; 
1 te 
18 }; 
19 
20 serial8101f0000 { 
2l compatible = "arm,pl011"; 
La reg = «Ox101f0000 Ox1000 >; 
23 interrupts = < 10 >; 
24 ^; 
25 
26 seriall101f2000 { 
2d compatible = "arm,pl011"; 
28 reg = «Ox101f2000 Ox1000 >; 


29 interrupts = < 2 0 >; 


30 i 


21 

32 gpioQ101f3000 { 

33 compatible = "arm,pl061"; 

34 reg = «Oxl101f3000 0x1000 

oo OxlOIf4000 O0x0010>; 

36 interrupts = < 3 U >; 

at }; 

38 

39 Into rinterrupt-controllera10140000"1 

40 compatible = "arm, p190"; 

41 reg = <0x10140000 0x1000 >; 

42 interrupt-controller; 

43 finterrupt-cells = «2»; 

24 be 

45 

46 spi@10115000 { 

47 compatible = "arm,p1022"; 

48 reg = «0x10115000 Ox1000 >; 

49 interrupts = < 4 0 >; 

50 }; 

51 

d external-bus { 

53 #address-cells = «2» 

54 #Size-cells = «1»; 

55 ranges = <0 0 0x10100000 0x10000 // Ghipselect 1, Ethernet 
56 10 0x10160000 0x10000 l4 Chapse lect. 2, 226 controller 
od 20 0x30000000 0x1000000>; // Chipselect 3, NOR Flash 
58 

59 ethernet@0,0O { 

60 compatible = "smc,smc91cl11"; 

61 reg = «0 0 0Ox1000»; 

62 interrupts = x D A >} 

63 } 7 

64 

65 1268140 4 

66 compatible = "acme,al234-i2c-bus"; 
67 #address-cells = «1»; 

68 fsize-cells = «0»; 

69 reg = «1 0 0Ox1000»; 

7 interrupts = < 6 2 >; 

71 rtc@58 { 

T2 compatible = "maxim,ds1338"; 
73 reg = <58>; 

74 interrupts = «€ 7 3 >; 

15 te 

T4 bea 

77 

78 Llashe2,0 4 

719 compatible = "samsung, ketlj3lsebm", "cfii-flash"; 
80 reg = «2 0 0Ox4000000»; 

81 }; 

92 }; 

93]; 


在 上 述 .dts 文 件 中 ， 可 以 看 出 external-bus 是 根 节点 的 子 节点 ， 而 EC 又 是 external-bus 的 子 节点 ，RTC 又 
进一步 是 EC 的 子 节点 。 每 一 级 节点 都 有 一 些 属性 信息 ， 本 章 后 续 部 分 会 进行 详细 解释 。 


2.DTC (Device Tree Compiler) 


DTO dts RAFAT. DICKIE T Wi Ecfüscripts/dic HRH, ZELinux VEZ ERE T VERE 
树 的 情况 下 ， 编 译 内 核 的 时 候 主机 工具 DTC 会 被 编译 出 来 ， 对 应 于 scripts/dtc/Makefile 中 “hostprogs-y: - 
=dtc" 这 一 hostprogs 的 编译 目标 。 


当然 ，DTC 也 可 以 在 Ubuntu 中 单独 安装 ， 命 邻 如下: 


sudo apt-get install device-tree-compiler 


在 Linux 内 核 的 arch/arny/bootdts/Makefile 中 ， 摘 述 了 当 霖 种 SoC 被 选中 后 ， 哪 些 .dtb 文 件 会 极 编 详 出 


来 ， 如 与 VEXPRESS 对 应 的 .dtb 包 括 : 


dtb-S$(CONfiG ARCH VEXPRESS) += vexpress-v2p-ca5s.dtb ^ 
vexpress-v2p-ca9.dtb \ 

vexpressev2b-ocal5-tol.dtb X 

vexpress-v2p-oal5 a&T.dtb \ 

xenvm-4.2.dtb 


在 Linux 下 ， 我 们 可 以 单 狐 编 译 设 备 树 文 件 。 当 我 们 在 Linux 内 核 下 运行 make dtbs 时 ， 若 我 们 之 前 选择 
了 ARCH VEXPRESS， 上 述 .dtb 都 会 由 对 应 的 .dts 编 译 出 来 ， 因 为 arch/arnyMakefile 中 含有 一 个 .dtbs 编 译 目 


DTC 除 了 可 以 编 诺 .dts 文 件 以 外 ， 其 实 也 可 以 " 反 拒 编 ”.dtb 文 件 为 .ts 文件， 其 指令 格 陈 为 : 


^ SOYLIpEsS/dbto/dbd I dtb -0 dts =o Xxx.0Ls arch/arm/DOOt/dEbSsyxxx.dbb 


3.DTB (Device Tree Blob) 


安 件 .dtb 是 .dts 被 DTC 编 译 后 的 三 进 制 格式 的 设备 树 描述 ， 可 由 Linux 内 核 解析 ， 当 然 U-Boot 这 样 的 


bootloader 也 是 可 以 识 列 .dtb 的 。 


通 第 在 我 们 为 电路 板 制 作 NAND、SD 局 动 映 像 时 ， 会 为 .dtb 文 件 单独 留 下 一 个 很 小 的 区 域 以 存放 之 ， 
之 后 bootloader 在 引导 内 核 的 过 程 中 ， 会 先 谈 取 该 .dtb 到 内 存 。 


Linux 内 核 也 文 持 一 种 变通 的 模式 ， 可 以 不 把 .dtb 文 件 单独 存 族 ， 而 是 直接 和 zImage 绑 定 在 一 起 做 成 一 
个 映像 文件 ， 类 似 cat zImage xxx.dtb>zImage with dtb 的 效果 。 当 然 内 核 编 译 时 候 要 使 能 
CONFIG ARM APPENDED DTB 这 个 选项 ， 以 文 持 “Use appended device tree blob to zImage" ( Jl; Linux Pj 
RAHA SEAL) o 


4. 绑 定 (Binding) 


对 于 设备 树 中 的 节点 和 属性 具体 是 如 何 来 描述 设备 的 便 件 细节 的 ， 一 般 需 要 文档 来 进行 讲解 ， 文 档 的 
后 级 名 一 般 为 .txt， 在 这 个 .txt 文 件 中 ， 需 要 描述 对 应 节点 的 兼容 性 、 必 需 的 属性 和 可 选 的 属性 。 


这 些 文 档 位 于 内 核 的 Documentation/devicetree/bindings 目 录 下 ， 其 下 又 分 为 很 多 子 目 录 。 辟 如， 


Documentation/devicetree/bindings/i2ci2c-xiic.txt 描 述 了 Xilinx 的 EC 控制 器 ， 其 内 容 如 下 : 


Xilinx IIC controller: 
Required properties: 
= compatible s Must: be "xlmx,xps-110-2,00,.a" 
reg : IIC register location and length 
interrupts : IIC controller unterrupt 
#address-cells = «1» 
#Size-cells = <0> 
Optional properties: 
- Child nodes conforming to i2c bus binding 
Example: 

axi iic 0: 12c6840800000 { 
compatible = c'Uxlpxxps-rizszo-2,00,.,8'; 


interrupts e =< Ll Z2 >j 

reg = « 0x40800000 0x10000 >; 
#Size-cells = «0»; 
#address-cells = «1»; 


基本 可 以 看 出 ， 设 备 树 绑 定 文 梢 的 主要 内 容 包 括 : 
CRT ACE Eg BIS EI] dE UR 

必需 属性 (Required Properties) 的 描述 

-可 选 属性 (Optional Properties) 的 描述 
一 个 实例 。 


Linux 内 核 下 的 Scripts/checkpatch.pl 会 运行 一 个 检查 ， 如 果 有 人 在 设备 树 中 新 这 加 了 compatible 字 符 串 ， 
而 没有 添加 相应 的 文档 进行 解释 ，checkpatch 程 序 会 报 出 次 告 : UNDOCUMENTED DT STRINGDT 
compatible string xxx appears un-documented， 因 此 程序 员 要 养 成 及 时 与 DT Binding SCM Hy 24 tit. 


5.Bootloader 


Uboot 设 备 从 v1.1.3 开 始 文 持 设 备 树 ， 其 对 ARM 的 文 持 则 是 和 ARM 内 核 文 持 设 备 树 同期 完成 。 





#define CONfiG OF LIBFDT 


在 Uboot 中 ， 可 以 从 NAND、SD 或 者 TFTP 等 任意 介质 中 将 .dtb 谈 入 内 和 存 ， 假 说 .dtb 放 入 的 内 存 地 址 为 


0x71000000, Z ja F)ZEUboot 132 17 fdt addr 厨 压 设 置 .dtb 的 地 址 ， 如 : 


UBoot» fdt addr 0Ox71000000 


fdt IT) cte áp A LAE AT EFA, fdt resize, fdt print 等 。 


x} FARM, FY EB xL bootz kernel addr initrd address dtb address 的 命令 来 局 动 内 核 ， 即 dtb address 
作为 bootz 或 者 bootm 的 最 后 一 次 参数 ， 第 一 个 参数 为 内 核 映像 的 地 址 ， 第 二 个 参数 为 initrd 的 地 址 ， 若 不 存 
fEinitrd, AJ DA PPS AE. 


18.2.2 WT ARATE 


上 述 .dts 文 件 中 ， 第 2 行 根 节 点 "的 兼容 属性 compatible="acme，coyotes-revenge"; 定义 了 整个 系统 


(设备 级 别 ) 的 名 称 ， 它 的 组 织 形式 为 : <manufacturer>，<model>。 


Linux 肉 核 通过 根 节 点 "的 兼容 属性 即 可 判断 官 启动 的 是 件 女 设备 。 在 真实 项 目 中 ， 这 个 顶层 设 备 的 
兼容 属性 一 般 包括 两 个 或 者 两 个 以 上 的 兼容 性 字符 串 ， 首 个 兼容 性 字符 串 是 板子 级 别 的 名 字 ， 后 面 一 个 兼 
容 性 是 芯片 级 别 〈 或 者 芯片 系列 级 别 ) 的 名 字 。 


E flf -Y-arch/arm/boot/dts/vexpress-v2p-ca9.dtsa Z* Farm, vexpress, v2p-ca9#ll“arm, vexpress”: 


compatible = "arm,vexpress,v2p-ca9", "arm,vexpress"; 
, 


NF arch/arm/boot/dts/vexpress-v2p-ca5s.dts Hy He x VE WIA: 


compatible = "arm,vexpress,v2p-cabs", "arm,vexpress"; 
7 


Ti. -T-arch/arm/boot/dts/vexpress-v2p-cal5 a7.dtsH*J3i AEN: 


compatible. = -"arm,vexpress,v2pescalo ai", “arm,Vvexpress 7 


AUDA HY, ERATEN E ERA arm, vexpress, MEETA RA Farm, vexpress, v2p- 


ca0. arm, vexpress, v2p-ca5s#llarm, vexpress, v2p-cal5 a7. 
vt— HG, arch/arm/boot/dts/exynos4210-origen.dts HY Ht 4A FECA F: 


compatible = "insignal,origen", "samsung,exynos4210", "samsung,exynos4"; 


Fi NPAT EME AF 很 特定 〉， 第 2 个 子 从 串 是 心 片 名 子 〈 比 较 特 定 )， 第 3 个 字段 是 心 厂 系列 
的 名 字 〔 比较 通 用 )。 


作为 类 比 ，arch/arm/boot/dts/exynos4210-universal c210.dts 的 兼容 性 字段 则 如 下 : 


compatible = "samsung,universal C210"; "samsung,exynos4210", "samsung,exynos4"; 


由 此 可 见 ， 它 与 exynos4210-origen.dts 的 区 别 只 在 于 第 1 个 字符 串 〈 特 定 的 板子 名 字 ) 不 一 样 ， 后 面 心 
Fr A AUS Fr AA A SERT TE. 


在 Linux 2.6 内 核 中 ，ARM Linux 针 对 不 同 的 电路 板 会 建立 由 MACHINE STARTAHIMACHINE END 包 
围 起 来 的 针对 这 个 设备 的 一 系列 回调 函数 ， 如 代码 清单 18.3 所 示 。 


代码 清单 18.3 ARM Linux 2.6 时 代 的 设备 


IMACHINE START(VEXPRESS, "ARM-Versatile Express") 


e -Lad OEPLSset — 0x100, 

3 somp = emp Ops (Vexpress smp- ops), 
4 .map io = Ym Map 10; 

s .1nit early = Wa init carly, 

6 el = Vom Init irg; 

7 .timer — &v2m timer, 

8 shandLe irg = HLO hardie irg; 

9 Init Machine = yam SE. 


10 ‚restart 
LIMACHINE END 


vexpress restart; 


这 些 不 同 的 设备 会 有 不 同 的 MACHINE ID，Uboot 在 启动 Linux 内 核 时 会 将 MACHINE ID 存放 在 r1 寄 存 
器 ，Linux 启 动 时 会 匹配 Bootloader 传 递 的 MACHINE ID 和 MACHINE START 声 明 的 MACHINE ID， 然 后 执 
行 相应 设备 的 一 系列 初始 化 函数 。 


ARM Linux 3.x 在 引入 设备 树 之 后 , MACHINE _ START 变更 为 DT MACHINE _ START， 其 中 含有 一 
Nat 00mmpai 成 员 ， 用 于 表明 相关 的 设备 与 .6 申 根 节 起 的 兼容 属性 兼容 关系 。 如 果 Bootloader 传 递 给 内 核 
的 设备 树 中 根 节点 的 兼容 属性 出 现在 某 设备 的 .dt_compat 表 中 ， 相 关 的 设备 就 与 对 应 的 兼容 匹配 ， 从 而 引 
发 这 一 设备 的 一 系列 初始 化 函数 被 执行 。 一 个 典型 的 DT_MACHINE 如 代码 清单 18.4 所 示 。 





代码 清单 18.4 ARM Linux 3.x 时 代 的 设备 


人 
Zz "arm, vexpress", 

2 M xen,envm', 

4 NULL, 

2]; 


6DT MACHINE START(VEXPRESS DT, "ARM-Versatile Express") 






8 . Smp 
9 map 10 


smp ops(vexpress smp ops), 
vem dt map T0; 


10 "TLE early = Vm dt Bic Carly, 
11 sinit irg = vom dt inrt irg; 
12 .timer = vam Oct L Cimer, 

13 init machine = Ym dt Init; 

14 hendle irq = gio handle. 1g; 

La "eStart = yok pi eos restart, 


l6MACHINE END 


Linux 倡 导 针 对 多 个 SoC、 多 个 电路 板 的 通用 DT 设备 ， 即 一 个 DT 设备 的 .dt_compat 包 含 多 个 电路 板 .dts 
文件 的 根 节 点 兼容 属性 字符 串 。 之 后 ， 如 果 这 多 个 电路 板 的 初始 化 序列 不 一 样 ， 可 以 通过 int 

of machine is compatible (const char*compat) API 判 断 具 体 的 电路 板 是 什么 。 在 Linux 内 核 中 ， 和 常常 使 用 如 
下 API 来 判断 根 节 点 的 兼容 性 : 


ine ól machine 159 compatible (cons:. Char ^*^oOompat); 


JEAPLFI it H AUIS fT BIBT SX SoCHJaE ETE, EVLACH WaT A PHJa E ES TAL 
drivers/cpufreq/exynos-cpufreq.c 中 就 有 判断 运行 的 CPU 类 型 是 exynos4210、exynos4212、exynos4412 还 是 
exynos$250 的 代码 ， 进 而 分 别处 理 ， 如 代码 清单 18.$ 所 示 。 


代码 清单 18.3 of machine is compatible © 的 案例 


lk Statue InbpexVpOS Oputreq prope(sStruct platrorm device *pdev) 

ZH 

3 int ret.  -EINVAL. 

4 

2) exynos- 10o -kzalLoc(tcsrvzeoL(^exynos. DIO); :OFP NEENED); 

6 II pHexvnos Inte) 

j, return -ENOMEM; 

8 

9 exynos xHfo-sdev- = pdv dov? 

10 

LF if (of machine is compatible("samsung,exynos4210")) | 

12 exynos Inio-stype = EXYNOS- SOC 4210; 

L3 Pet -.exvnos4210 cpusreq. :nrt(exynos Xni) 

14 poelse TE doro machine: 29 compatszDle("samsung,exynos42]2T)). 4 
15 exvHuos Info-stype = EXYNOS 9060 42127; 

16 fet = exynos4x12 cpusreq :nrt(lexynos nro); 

TA kelse Xr (ort machine: LS compatible(" semsung,exynos4412")). { 
L9 exynos info->type = EXYNOS SOC 4412; 

1:9 rer ‘> exvDnOSSxXl2 cpulreg snitq(exyvnos- nro) 
Z0 ] else xr (Ol machine: 2s Com .ore Sam ex nos 250"). x 
Zl esy noo umNLO«Lype c ENOS 500 0529505 
22 DSL e cexvmOSD200 ODU5Freg cnrufexynos Smeg) 
ZS } else { 
24 pr err("$s: Unknown SoC typen"; — func ); 
vas return -ENODEV; 
26 } 
Z 
28] 


WR PGR ELE E NH. SURF NART Aa A compatible="samsung, 


universal c210"，"samsung，exynos4210"，"samsung，exynos4" 的 情况 ， 如 下 3 个 表达 式 都 是 成 立 的 。 


of machzne rs compatible(" samsung,unrversael c210'") 
of machine is compatible ("samsung,exynos4210") 
of machine is compatible ("samsung,exynos4") 


18.2.3 We TAHA 


在 .dts 文 件 的 每 个 设备 节点 中 ， 都 有 一 个 兼容 属性 ， 兼 容 属性 用 于 驱动 和 设备 的 绑 定 。 He m EE 
个 字符 串 的 列表 ， 列 表 中 的 第 一 个 字符 串 表 征 了 节点 代表 的 确切 设备 ， 形 式 为 "<manufacturer>， 
<model>"， 其 后 的 字符 串 表 征 可 兼容 的 其 他 设备 。 可 以 说 前 面 的 是 特 指 ， 后 面 的 则 涵盖 更 广 的 范围 。 如 在 


vexpress-v2m.dtsiF #JFlash H Ei Ph: 


flash@0,00000000 { 
compatible = "arm,vexpress-flash", "cfi-flash"; 
reg = <0 Ox00000000 Ox04000000>, 
«1 0x00000000 0x04000000»; 
bank-width = «4»; 
); 


莱 容 属性 的 第 2 个 字符 串 "cfi-flash" 明 显 比 第 1 个 字符 串 "arm，vexpress-flash" 泣 新 的 范围 更 广 。 


再 如 ，Freescale MPC8349SoC 舍 一 个 串口 设备 ， 它 实现 了 国家 半导体 (National Sem-iconductor) 的 
NS16550 寄 存 右 接口 。 则 MPC8349 串 口 设 备 的 辣 容 属性 为 compatible="fsl，mpc8349-uart"，"ns16550"。 其 
中 ，fsl1，mpc8349-uart 指 代 了 确切 的 设备 ，ns16550 代 表 该 设备 与 NS16550UART 保 持 了 寄存 器 兼容 。 
此 ， 设 备 万 所 的 菩 容 性 和 根 广 点 的 羔 容 性 是 类 似 的 ， 部 是 “从 上 其 体 到 抽象 ”。 


使 用 设备 树 后 ， 驱 动 需要 与 .dts 中 描述 的 设备 节点 进行 匹配 ， 从 而 使 驱动 的 probe() 函数 执行 。 对 于 
platform driver 而 言 ， 需 要 添加 一 木 OF 匹 配 表 ， 如 前 文 的 .dts 文 件 的 "acme，a1234-i2c-bus" 兼 容 2C 控 制 器 节 


态 的 OF 罗 配 表 ， 具 体 代 码 清 时 18.6 所 示 。 








代码 清单 18.6 ”platform 设 备 驱 动 中 的 of_ match table 


lsStatrc Const. SLrPucL ol device Xd L124 12C Ol matchi —-1 
2 { .compatible = "acme,al234-12c-bus", }, 

S {}, 

4}; 


SMODULE DEVICE TABLE(of, a1234 12c of match); 
6 





LSLQUEO SLPUOL placrorm driver 12¢ @l7o4 driver = i 

8 .driver = { 

9 -name = "al234-i2c-bus", 
10 .owner = THIS MODULE, 
L1 = A1434 120 Of match, 
12 F 

is: probe = 12€ 21254 probe, 

14 .remove = i2c a1234 remove, 

Lo]; 


lomodule platform driver(i2c al1234 driver); 


对 于 FC 和 SPI 从 设备 而 言 ， 同 样 也 可 以 通过 of match table 添 加 匹配 的 .dts 中 的 相关 节点 的 兼容 属性 ， 
如 Sound/soc/codecs/wm8753.c 中 的 针对 WolfonWM8753 的 of match table， 有 具体 如 代码 请 单 18.7 所 示 。 


代码 清单 18.7 IfC、SPI 设 备 驱 动 中 的 of match table 


lStatrio Const. SLEUCL OL. device 1d Wine/ > or marcii] = 4 


P { .compatible = "wlf,wm8753", }, 
3 { } 


tja 

5MODULE DEVICE TABLE (of, wm8753 of match); 
OStatic Struct Spi driver wmol95 Spi driver = ]{ 
1 .driver = { 

8 .name = "wm875323", 

9 .owner = THIS MODULE, 
LU OL matoh table = wed] OL March; 
11 by 
12 . probe = wm9753 spi probe, 
iS . remove = wm8753 spi remove, 
14}; 

Losta Cig SLPUCLC 220 driver Wm/ 12€ driver = q 
16 .driver = { 

12 .Name = "wm8753", 

Lg .owner = THIS MODULE, 

L OL Match table = white/ > OL Marci; 
20 by 
21 .probe = wme755 120 probe, 
22 .remove = wm8753 i2c remove, 
Zo sid table = wmo/55 120 id; 
24] 


EAR 6 247 SEAN WMS8753 A BENZ fI 4e wlf?^, "E SEZÉXS F Wolfson Microe-lectronicsH RI 28 « 


详细 的 前 级 可 见于 内 核 文 档 : Documentation/devicetree/bindings/vendor-prefixes.txt 


对 于 PC、SPI 还 有 一 点 需要 提醒 的 是 ，PC 和 SPI 外 设 驱动 和 设备 树 中 设备 节点 的 兼容 属性 还 有 一 种 弱 
式 匹 配方 法 ， 就 是 “别名 ”匹配 。 兼 容 属性 的 组 织 形式 为 <manufacturer>，<model>， 册 名 其 实 就 是 卖 掉 兼容 
属性 中 manufacturer 前 级 后 的 <modeE 部 从 ， 关 于 这 一 点 ， 可 查看 drivers/spi/spi.c 的 源 代 码 ， 函 数 
spi match device O 暴露 了 更 多 的 细节 ,好 果 别 名 出 现在 设备 spi_driver 的 id_ table 里 面 ， 或 者 别名 与 
spi_driver 的 name 字 段 相同 ，SPI 设 备 和 驱动 都 可 以 匹配 忆 ， 代 码 清单 18.8 显 示 了 SPI 的 别名 匹配 。 


代码 清单 18.8 ”SPI 的 别名 匹配 





bor ario rnt Sp match device(s ruci device *dev, SUPUCL device driver “qry) 


Z1 

2 Cono SUruce Spi device “sp. = to Spr devrce(dev)y 

4 Const Struct spi driver pdr = EO BD driver (dry); 
5 

6 /* Attempt an OF style match */ 

7 II (OL driver match device (dev; dry) ) 

8 return 1; 

9 

10 /* Then try ACPI */ 

11 Lt {acpi driver match device(dev, drvi) 

12 return 1; 

L3 

14 Lit (Sdrv->id table) 

Es return .Spl Match. 10 (s0rvy->10. table, spi); 
16 

17 return strcemp(spi->modalias, drv->name) == 0; 

18 } 

lOSbHLIC Const. SEruce Spl device rd "Spa match Xdgiconst Strüct Spr devroe Xd ~id; 
20 COnst Struct spi device *sdev) 
ALi 
Ze while (id->name[0]) { 
23 if (!strcomp(sdev-»modalias, id->name) ) 
24 return id; 
29 ideri 
26 } 
2] return NULL; 
25] 


一 个 驱动 可 以 在 of match table 中 兼容 多 个 设备 ， 在 Linux 内 核 中 常常 使 用 如 下 API 来 判断 具 体 的 设备 
是 什么 : 





int of device is compatible (const Struct device node device Const Char *oompat); 


HEK AUH F Ja] Br EAS ERE BL; compati MAE. NAPIT ARE 
个 以 上 设备 的 时 候 。 


当 一 个 驱动 文 持 两 个 或 多 个 设备 的 时 候 ， 这 些 不 同 .dts 文 件 中 设备 的 兼容 属性 都 会 写 入 驱动 OF 匹配 
表 。 因 此 驱动 可 以 通过 Bootloader 传 递 给 内 核 设备 树 中 的 真正 市 点 的 兼容 属性 以 确定 完 葛 是 哪 一 种 设备 ， 
从 而 根据 不 同 的 设备 类 型 进行 不 同 的 处 理 。 如 arch/powerpc/platforms/83xx/usb.c 中 的 mpc831x usb cfg ©) 
就 进行 了 类 似 处 理 : 
if (immr node && (of device is compatible(immr node, "fsl,mpc8315-immr") || 
OL device is compatible(limmr node, "Isl,mpcs305-zmmr^")), 
GIPsetbits De221ilmmap c MPC63xXx SCUR OEES; 


MPC8315 SCCR USB MASK, 
MPC8315 SCCR USB DRCM 01); 


else 
Glrsetbits De22(1mmap a MPCOSXX SCUR OEES; 
MPC83XX SCCR USB MASK, 
MPC83XX SCCR USB DRCM 11); 
/* Configure pin mux for ULPI. There is no pin mux for UTMI */ 
il (prop && Lstromp(prop, "ülpi")) 4| 
it (of device 18 compatible(immr node, "fsl,mpces08-immr")). 4 


clreerbrts beo2(immsp a MPCOOSAXR SICBH OFFS, 
MPC8308 SICRH USB MASK, 
MPC8308 SICRH USB ULPI); 

| else al (Of device 16 compatible(immr mode, "Isl,mpooslo-ummb")y 4 
clreerbits beoztimmap 4 MPCOSAX OICRLE OFFS; 
MPC8315 SICRL USB MASK, 
MPC8315 SICRL USB ULPI); 

Clrsecbits..besZ (ammap + MPCOOSAX OICRH OFFS; 
MPC8315 SICRH USB MASK, 
MPC8315 SICRH USB ULPI); 

} else { 

CleserDrits .Deoztimmap + MPCOSAX SUCRE OFFS; 
MPC831X SICRL USB MASK, 
MPOS3IX STORG USB ULPI)S 

OlrsetDIts beo2iunmmap + MPOOSXX SICRH ORE, 
MPC831X SICRH USB MASK, 
MPC831X SICRH USB ULPI); 


它 根据 具体 的 设备 是 人 ll，mpc8315-immr 和 全 1，mpc8308-immr、 中 的 哪 一 种 来 进行 不 同 的 处 理 。 


当 一 个 驱动 可 以 兼容 多 种 设备 的 时 候 ， 除 了 of device is compatible © 这 种 判断 方法 以 外 ， 还 可 以 采 


用 在 驱动 的 6f device IARAA data RANSA. $, arch/arm/mm/cache-12x0.05¢ 4# “arm, 1210- 


cache”arm，p1310-cache”arm，1220-cache”" 等 多 种 设备 ， 其 of device id 表 如 代码 清单 18.9 所 示 。 


代码 清单 18.9 ”支持 多 个 兼容 性 以 及 .data 成 员 的 of device id 


KEIN NP .compatible = name, .data = (void *)&fns } 
ZeLatric CONSE struct Or devroe xd 12x0 adel] initconst = { 






3 h20 1D( "aim, L2lv-cache™, of 120210 daca), 

4 人 

2 Lzt IDt"arm,pLol0ecache", of L205L0 ara); 

6 EC 

7 hzc ID('marvell,,aurobs-outer-oache", Of aurora Nih GOULET dara), 


8 ZC ID("mMarvell, aurora-system-Cacne”, OL aurora ho Ouver daca), 


9 Lec ID(UMarvell,vtauros»-cache'", Of Lauros2 daca), 
10 /* Deprecated IDs */ 
11 L2G IDi"DOHDONilosles2plobLU-ocgchne" . or Dom. LAKU cata), 
I2 { } 
TS: 


在 张 动 中 ， 通 过 如 代码 请 单 18.10 的 方法 拿 到 了 对 应 于 L2 绥 人 存 关 型 的 .data 成 员 ， 其 中 主要 用 到 了 


代码 清单 18.10 ”通过 of match node ©) 找到 .data 


Line — init 2xX0. of INnit(u32 aux val; U32 aux mask) 
24 

3 CODSD serucl. AC UNE Gata. “Caca, 

4 Strucc device mode “np; 

S 

6 np = of find matching node(NULL, 12x0 ids); 
7 if (!np) 

8 return -ENODEV; 

9 » 
10 data = ‘Or March modetl2x0 de; Bp)-odgdte; 
11} 


如 果 电 路 板 的 .dts 文 件 中 L2 绥 存 是 arm，pl310-cache， 那 么 上 述 代 人 码 第 10 行 找到 的 data 束 是 


of 12c310 data， 它 是 1l2c init data 结 构 体 的 一 个 实例 。 12c_init_data 是 一 个 由 L2 缓 存 驱 动 自 定义 的 数据 结 
构 ， 在 其 定义 中 既 可 以 保护 数据 成 员 ， 又 可 以 包含 函数 指针 ， 如 代码 清单 18.11 所 示 。 


代码 清单 18.11 与 兼容 对 应 的 特定 data 实 例 


LStruce 126 anit. data | 


2 const char *type; 

3 unsigned way size 0; 

4 unsigned num lock; 

5 void (ot parse) (Conse. Struce, device node v, Woz * uoz ^)7 

6 vöid (*enable)(vord . lomem *, u52, unsigned); 

q vord (*Lixup) (void .._1OMemM ~=; u22, SUEUcL OULSIÍ Cache [N9 ^); 
8 vord (*save) (void _ iomem ~“); 

d Stfuct Outer Cache INS outer cache, 
10}; 


18.2.4 WAT ANK labellf tit 44 


WSs 8:18.2H.dts CIFRE, TCR Ex BJepus dH RI Ea epud Hrs A I Uh EA 
CPU, FEWER: “arm, cortex-a9". 

注意 cpus 和 cpus 的 两 个 cpu 子 节点 的 命名 ， 它 们 遵循 的 组 织 形式 为 <names[@<unit-address>]，<> 中 的 内 
容 是 必 选 项 ，[] 中 的 则 为 可 选项 。name 是 一 个 ASCII 字 符 串 ， 用 于 描述 节点 对 应 的 设备 类 型 ， 如 3com 
Ethernet 适 配 旭 对 应 的 广 点 name 守 为 ethernet， 而 个 是 3com509。 如 果 一 个 而 点 搬 述 的 设备 有 地 址 ， 则 应 度 
给 出 @unit-address。 多 个 相同 类 型 设备 节点 的 name 可 以 一 样 ， 只 要 unit-address 不 同 即 可 ， 如 本 例 中 含有 
cpuQ@0、cpu@1 以 及 serial@101f0000 与 serial@101P2000 这 样 的 同名 节点 。 设 备 的 unitraddress 地 址 也 经 第 在 
其 对 应 市 点 的 reg 属 性 中 给 出 。 


对 于 挂 在 内 存 空间 的 设备 而 言 ，@ 字 符 后 跟 的 一 般 就 是 该 设备 在 内 存 空间 的 基地 址 ， 芯 如 


arch/arm/boot/dts/exynos4210.dtsi 中 存在 的 : 


sysram(02020000 { 
compatible = "mmio-sram"; 
reg = «0x02020000 0x20000»; 


上 述 节点 的 reg 属 性 的 开始 位 置 与 @ 后 面 的 地 址 一 样 。 
对 于 挂 在 PC 总 线 上 的 外 设 而 言 ，@ 后 面 一 般 跟 的 是 从 设备 的 PC 地 址 ， 璧 如 


arch/arm/boot/dts/exynos42 1 0-trats.dtsF H'Jmms114-touchscreen: 


126613890000" { 


mms114-touchscreen@48 { 


compatible = "melfas,mms114"; 
reg = <Qx48>; 


上 述 节点 的 reg 属 性 标示 的 PC 从 地 址 与 @ 后 面 的 地 址 一 样 。 


具体 的 节点 命名 规范 可 见 ePAPR (embedded Power Architecture Platform Reference) 标准 ， 


在 https:/www.powerorg 中 可 下 载 该 标准 。 


我 们 还 可 以 给 一 个 设备 节点 添加 label， 之 后 可 以 通过 &labgl 的 形 武 访问 这 椒 label， 这 种 引用 是 通过 


phandle (pointer handle) 进行 的 。 


例如 ， 在 arch/arnyboot/dts/omapS$.dtsi 中 ， 第 3 组 GPIO 有 gpio3 这 个 label， 如 代码 清单 18.12 所 示 。 


代码 清单 18.12 在 设备 树 中 定义 label 


lgpio3: gpio@48057000 { 


compatible = "ti,omap4-gpio"; 

reg = «0x48057000 0x200»; 

interrupts = «GIC SPI 31 IRQ TYPE LEVEL HIGH»; 
ti,hwmods = "gpio3"; 

qoloecontroller; 

#Qpio-cells = «2»; 

interrbvupr-controlilor; 

finterrupt-cells = «2»; 





O XO CO 10) ok WN 


| 


而 hsusb2 phy 这 个 USB 的 PHY 复 位 GPIO 用 的 是 这 组 GPIO 中 的 一 个 ， 所 以 它 通 过 phandle 引 用 
了 “gpio3”， 如 代码 清单 18.13 所 示 。 


代 人 码 清 单 18.13 ”通过 phandle 引 用 其 他 节点 


1/* HS USB Host PHY om PORT 2 */ 
ensusb2 phys nsusb2 phy 4 


3 compatible - "usb-nop-xceiv"; 
4 reset-gpios - <agpio3) 12 GPIO ACTIVE LOW»; /* gpio3 76 HUB RESET */ 
2] 


A iE 818.1228 147 HJgpio3  gpi0@48057000 1 zx Hlabel, MARIA 4418.13Hhsusb2_ phy 则 通过 
&gpio3 引 用 了 这 个 节点 ， 表 明 自 己 要 使 用 这 一 组 GPIO 中 的 第 12 个 GPIO。 很 显然 ， 这 种 phandle 引 用 其 实 表 
明 便 件 之 间 的 一 种 天 联 性 。 


再 举 一 例 ， 在 arch/arm/boot/dts/omap5.dtsi 中 ， 我 们 可 以 看 到 类 似 如 下 的 label， 从 这 些 实例 可 以 看 出 ， 
label 习 惯 以 < 设备 类 型 ><index> 进 行 命名 : 
12013. 1208495070000 1 
M i2c@48072000 { 


1203: 1208495060000 | 
ET 


读者 也 许 发 现 了 一 个 奇怪 的 现象 ， 就 是 代码 清单 18.13 中 居然 引用 了 GPIO ACTIVE LOW 这 个 类 似 C 


语言 的 宏 。 实 件 .dts 的 编译 过 程 确实 支持 C 的 预 剑 理 ， 相 应 的 .dts 文 件 也 包括 了 包含 GPIO_ACTIVE_LOW 这 
个 安定 义 的 头 文 件 : 


#include «dt-bindings/gpio/gpio.h» 


对 于 ARM 而 言 ，dt-bindings 头 文件 位 于 内 核 的 arch/arny/bootdts/include/dt-bindings 目 录 中 。 观 察 该 目录 
的 属性 ， 它 实际 上 是 一 个 符号 链接 : 


baohua8baohua-VirtualBox:-/develop/linux/arch/arm/boot/dts/include$ ls -1 dt- 
bindings 

lrwxrwxrwx 1 baohua baohua 34 11H 28 00:16 dt-bindings -> ../../../../../ 
include/dt-bindings 


从 内 核 的 Scripts/Makefile.lib 这 个 文件 可 以 看 出 ， 文 件 .dts 的 编 详 过 程 确实 是 文 持 C 了 预 处 理 的 。 


se 
DQCODTbree s scpPXpES/ QUO db .sO dED =O $9.5 9 X 
=i. S(dir $<) (DTC FLAGS): X 
=d S(deori le) vdiesime: (tate tm x X 
sat S(deprtile).pre.tmp: o(deortls)ggbeump.i S(depiris se) 


它 是 先 做 了 $ CCPP) $ Cdtc cpp flags) -x assembler-with-cpp-o$ (dtc-tmp) $<， 有 再 做 的 .dtc 编 译 。 


18.2.5. ”地址 编码 


可 寻 扯 的 设备 使 用 如 下 信息 在 设备 树 中 编码 地 址 信息 : 


reg 
#address-cells 
#size-cells 


其 中 ，reg 的 组 织 形式 为 reg=<addressllengthl[address2length2][address3length3]...>， 其 中 的 每 一 组 


address 和 length 字 段 是 可 变 长 的 ,区 节 吉 的 #address-cells 和 #size-cells 分 别 决定 了 子 节 志 reg 属 性 的 


在 代码 清单 18.2 中 ， 根 节点 的 #address-cells=<1>; 和 #size-cells=<1>; 决定 了 serial、gpio、spi 等 节点 的 
address 和 length 字 段 的 长 度 分 别 为 1。 


cpus i £4 HJ#address-cells=<1>; 和 #size-cells=<0>; 决定 了 两 个 cpu 子 市 点 的 address 为 1， 而 length 为 


空 ， 于 是 形成 了 两 个 cpu 的 reg=<0>; 和 reg=<1>; . 








external-bus 1i £3 HJZtaddress-cells--2»4flZisize-cells-«12; 决定 了 其 下 的 ethernet、i2c、flash 的 reg 字 段 形 


如 res=<0 0 0x1000>; . reg=<1 0 0x1000>; 和 reg=<2 0 0x4000000>; 。 其 中 ，address 字 段 长 度 为 2， 开 始 


的 第 一 个 cell ( 即 “<" 后 的 0 1. 2 大 是 对 应 的 片 选 ， 第 2 个 cell ( 即 <0 0 0x1000>、<1 0 0x1000> 和 <2 0 
0x1000000> 中 间 的 0 Os 0)- 是 相对 该 片 选 的 基地 十 ， 第 3 个 cell CRI" OX 1000; Ox 1000. 


特别 要 留意 的 是 i2c 节 点 中 定义 的 #address-cells=<1>; 和 #size-cells=<0>; ， 其 作用 到 了 I2C 总 线 上 连接 


的 RTC， 它 的 address 字 段 为 0x$8， 是 RTC 设 备 的 EC 地 址 。 








根 节 点 的 直接 子 书 点 摘 述 的 是 CPU 的 视图 ， 因 此 根子 节点 的 address 区 域 承 和 直接 位 于 CPU 的 内 存 区 域 。 
但 是 ， 经 过 总 线 桥 后 的 address 往 往 需 要 经 过 转换 才能 对 应 CPU 的 内 存 蜗 射 。external-bus 的 ranges 属 性 定义 
了 经 过 external-bus 桥 后 的 地 址 范围 如 何 映 射 到 CPU 的 内 存 区 工 。 


ranges - «0 0 www Gx10000 ;7 Chipselect 1, Ethernet 
10 0x10160000 0x10000 /7 Chnipselect 2, 720 controller 
20 0x30000000 0x1000000»; // Chipselect 3, NOR Flash 


‘ranges Hb Rede, Forms D Herb. S2 EDU TETUR TD IRIURE. ig 
表 中 的 子 地 址 、 父 地 址 分 别 采 用 子 地 址 空间 的 #address-cells 和 父 地 址 空间 的 #address-cells 大 小 。 对 于 本 例 


而 言 ， 子 地 址 空间 的 #address-cells 为 2， 父 地 址 空间 的 #address-cells 值 为 1， 因 此 000x101000000x10000 的 前 
2 个 cell 为 external-bus 桥 后 external-bus 上 刻 选 0 偏 移 0， 第 3 个 cell 表 示 external-bus 上 片 选 0 偏 移 0 的 地 址 空间 被 
映射 到 CPU 的 本 地 总 线 的 0x10100000 人 位置， 第 4 个 cell 表 示 映 射 的 大 小 为 0x10000。tranges 后 面 两 个 项 目的 

含义 可 以 类 推 。 


18.2.6 | "Bp gaz 
设备 树 中 还 可 以 包含 中 断 连 接 信 息 ， 对 于 中 上 断 控制 器 而 言 ， 它 提供 如 下 属性 : 
interrupt-controller 这 个 属性 为 室 ， 中 断 控制 器 应 该 加 上 此 属性 表明 自己 的 身份 ; 


#interrupt-cells—5 #address-cells#ll#size-cells#AWA, "E ze HHEH E rp He hil) AS A e A J TE cel lL 


小 。 
在 整个 设备 树 中 ， 与 中 靳 相关 的 属性 还 包括 : 


interrupt-parent 设备 节点 通过 它 来 指定 它 所 依附 的 中 断 控制 器 的 phandle， 当 节点 没有 指定 interrupt- 
parent 时 ， 则 从 父 级 和 点 继承 。 对 于 本 例 《〈 代 但 清单 18.2) 而 言 ， 根 节点 指定 了 interrupt-parent= 

«&intc^; ， 其 对 应 于 intc: interrupt-controller@10140000, MIRE ART ASP AS B xEinterrupt-parent; 
此 它们 都 继承 了 intc， 即 位 于 0x10140000 的 中 断 控 制 器 中 。 








interrupts- 用 到 了 中 断 的 设备 节点 ， 通 过 它 指定 中 断 号 、 触 发 方法 等 ， 这 个 属性 具体 含有 多 少 个 cell， 


由 它 依 附 的 中 断 控制 器 节点 的 熙 nterrupt-cells 属 性 决定 。 而 每 不 cell 具 体 又 是 件 女 奋 义 ， 三 般 直 驱动 的 实现 
决定 ， 而 且 也 会 在 设备 树 的 绑 定 文档 中 说 明 。 辟 如， 对 于 ARM GIC 中 断 控 制 器 而 言 ，#interrupt-cells 为 3， 
3 个 cell 的 具体 含义 在 Documentation/devicetree/bindings/arnygic.txt 中 束 有 如 下 文字 说 明 : 


The lst cell is the interrupt type; 0 for SPI interrupts, 1 for PPI 
interrupts. 
The 2nd cell contains the interrupt number for the interrupt type. 
SPI interrupts are in the range [0-987]. PPI interrupts are in the 
range [0-15]. 
The 3rd cell is the flags, encoded as follows: 
bits[3:0] trigger type and level flags. 

1 = low-to-high edge triggered 
high-to-low edge triggered 
active high level-sensitive 
— active low level-sensitive 
bits[15:8] PPI interrupt cpu mask. Each bit corresponds to each of 
the 8 possible cpus attached to the GIC. A bit set to '1' indicated 
the interrupt is wired to that CPU. Only valid for PPI interrupts. 


2 
4 
8 


另外 ， 值 得 注意 的 是 ， 一 个 设备 还 可 能 用 到 多 个 中 断 号 。 对 于 ARM GIC 而 言 ， 若 某 设 备 使 用 了 SPI 的 
168 号 、169 号 两 个 中 断 ， 而 且 都 是 高 电 平 触发 ， 则 该 设备 节点 的 中 断 属 性 可 定义 为 interrupts=<01684>， 
«01694»; 。 


dpt Platform get irq(struct platform device *dev, unsigned int num); 


HIE .dts X PE rj n] EAS] FR AETA, Ies CESK ey Faw platform get irq byname O 2E3X HOY DAY 


Hs BOAR E IS.14T87R I fEdrivers/dma/fsl-edma.c FM i platform get irq byname ©) 获取 IRQ， 
LJ, X arch/arm/boot/dts/vf6 1 0.dtsi-Ej fsl-edmaJk a) Xt PY Tr i HJ FB FIA o 


代 人 担 清 单 18.14 AR P HI UR Br BK EAR DR] SR EDU BT 


lotari INC 
人 


ad 

4 rel CdMa=-t xorg eUplatrorm Ger rg Dysame(pdewv, eogmaste'"' 7 
5 Lsl Sdmas -Sr ird — 'plavrorm.get rq oyname(cpdev, "eduea-err")s 
6j 

7 

SedmaQ: dma-controller@40018000 { 

9 #dma-cells = <2>; 
FO compatible = "fsl,vfol0-edma"; 
LE reg = <0x40018000 0x2000>, 
12 «0x40024000 0x1000», 
13 <0x40025000 0x1000>; 
14 interrupts = <0 8 IRO TYPE LEVEL HIGH», 
15 «0 9 IRQ TYPE LEVEL HIGH»; 
16 interrupt-names - "edma-tx", "edma-err"; 

LA dma-channels = «32»; 

18 clock-names = "dmamux0", "dmamuxl"; 

19 Clocks’ = <é¢lks VEOGIU CLE DMAMUXO>; 
20 «&clks VF610 CLK DMAMUX1>; 
2L? 


第 4 行 、 第 $ 行 的 platform_ get irq byname () 的 第 2 个 参数 与 .dts 中 的 interrupt-names 是 一 致 的 。 


18.2.7 GPIO、 时 钟 、pinmux 连 接 


除了 中 断 以 外 ， 在 ARM Linux 中 时 钟 、GPIO、pinmux 痢 可 以 通过 .dts 中 的 节点 和 属性 进行 手 述 。 


1.GPIO 


壁 如， 对 于 GPIO 控 制 器 而 言 ， 其 对 应 的 设备 节点 需 声 明 gpio-controller 属 性 ， 并 设置 #gpio-cells 的 大 


小 。 壁 如 ， 对 于 兼容 性 为 人 G1，imx28-pinctrl 的 pinctrl 驱 动 而 言 ， 其 GPIO 控 制 器 的 设备 节点 类 似 于 : 


paznotrl18980018000 4 
compatible = "fsl,imx28-pinctrl", "simple-bus"; 
reg = «0x80018000 2000»; 
gqpio0sf gporiomg0. 4 
compatible = "isl; 1imx28-gpioT; 
interrupts = <127>; 
gdolo-controllesr; 
#gpio-cells = «2»; 
interrupt-controller; 
#interrupt-cells = «2»; 
); 
gpiol: gpio@l { 
compatible = "fsl,imx28-gpio"; 
interrupts = <126>; 
GoLo=conrroLler; 
#gpio-cells = «2»; 
interrupt-controller; 
tinterrupt-cells = «2»; 
); 


其 中 ，#gpio- ”cells 为 2， 第 1 个 cell 为 GPIO 号 ， 第 2 个 为 GPIO 的 极 性 。 为 0 的 时 候 是 高 电 平 有 效 ， 为 1 的 
时 候 则 是 低 电 平 有 效 。 


使 用 GPIO 的 设备 则 通过 定义 命名 xxx-gpios 属 性 来 引用 GPIO 控 制 器 的 设备 节点 ， 如 ;: 


sdhci@c8000400 { 
status = "okay"; 
cd-gpios = 
Wp-gpios = 
power-gpios 
bus-width = <4>; 
); 









D xs 


而 其 体 的 设备 驱动 则 通过 类 似 如 下 的 方法 来 获取 GPIO: 


Od grio = 0t Set named Goloimp, "Od-gPLOE". 0); 
WD Sgpio = or get named gpLO(Qp, "wp-gplos",. U)? 
power gpio = Of get named gpioinp, "power-gpios", 0); 


of get named gpio O 这 个 API 的 原型 如 下 : 


Static inline rnt Of get named Gpro (struct device node “np, 
const char *propname, int index); 


在 .dts 和 设备 驱动 不 关心 GPIO 名 字 的 情况 下 ， 也 可 以 直接 通过 of get gpio O 获取 GPIO， 此 函数 原型 


SEO) 


如 对 于 compatible="gpio-control-nand" 的 基于 GPIO 的 NAND 控 制 占 而 言 ， 在 .dts 中 会 定义 多 个 gpio 属 
性 : 


gpio-nand@1,0 { 

compatible = "gorio-control-nand"; 

reg = «1 0x0000 0x2»; 
#address-cells = «1»; 
#size-cells = «1»; 


gpios = <&banka 1 0 [* dy 7 
thanka: 2 0 /* nce */ 
&banka 3.0 /* ale */ 
banka 4.0 Pe pe $y 
0 = Dp TA 


partitionQGO ( 


Ve 


TEAK YAY SK Ri drivers/mtd/nand/gpio.cH Z& IX FE 3X AIX LEGPION: 


piste gpio ray 
plat-»gpio nce 
plat->gpio ale 
phascecgpio Cle 
plat->gpio nwp 


Ort get gpro(dev-^or node; 
Of get gprloTtdev--or node, 
OL get gpio(dev >0f mode, 
OL get gpoio(deve-or node, 
OL get ge mode, 


Aa LO RBS [e 
we we we we “Ne 


2. 时 钟 
时 钟 和 GPIO 也 是 类 似 的 ， 时 钟 控制 桥 的 节点 饭 使 用 时 钟 的 模块 引用 : 


clocks = «&clks 138>, «&clks 140>, «&clks 141»; 
= "uart"; "general"; "noc"; 


而 驱动 中 则 使 用 上 述 的 clock-names 属 性 作为 clk_get() 或 devm_clk get O 的 第 三 个 参数 来 囊 请 时 钟 ， 


如 获取 第 2 个 时 钟 : 


DIR 


devm clk get(&pdev-»dev, "general"); 


«&clks 138> 里 的 138 这 个 index 是 与 相应 时 钟 驱动 中 clk 的 表 的 顺序 对 应 的 ， 很 多 开发 者 也 认为 这 种 数 
字 出 现在 设备 树 中 不 太 好 ， 因 此 他 们 把 clk 的 index 作 为 宏 定 义 到 了 arch/arm/boot/dts/include/dt-bindings/clock 
中 。 壁 如 include/dt-bindings/clock/imx6qdl-clock.h 中 存在 这 样 的 宏 : 


#define IMX6QDL CLK STEP 16 
#define IMX6QDL CLK PLL1 SW D 
#define IMX6QDL CLK ARM 104.. 


而 arch/arm/boot/dts/imx69g.dtsi 则 是 这 样 引用 它们 的 : 


clocks = «&clks IMX6QDL CLK ARM», 
«&clks IMX6QDL CLK PLL2 PFD2 396M», 
«&clks IMX6QDL CLK STEP», 

«&clks IMX6QDL CLK PLL1 SW», 

«&clks IMX6QDL CLK PLL1 SYS»; 


3.pinmux 


在 设备 树 中 ， 某 个 设备 节点 使 用 的 pinmux 的 引 脚 群 是 通过 phandle 来 指定 的 。 辟 如 在 


arch/arm/boot/dts/atlas6.dtsiHjJpinctrl 广 点 中 包含 所 有 有 引 肢 群 的 接 述 ， 如 代码 消音 18.15 所 示 。 
代 人 码 消 单 18.15 ”设备 树 中 pinctrl 控 制 占 的 引 肢 群 


Lgpio? pinctrbhsb0120000. 4 


2 #gpio-cells = «2»; 

3 finterrupt-cells = «2»; 

4 Compatible = "sipr,dtlaso-pinccrl" 

5 

6 

7 lod L6pins ar Lo00080- 1 

8 Load { 

9 Siri; pins = “Led LODILSQIp"; 
LU SIIT UnC Clon = uod 1IG0ICAT; 
Ll ); 

LZ a 

1.3 T 

14 Spill pins av spiol 1 

to Spi { 

16 sirf,pins = "spi0grp"; 
1.3 giri IUuHCLION = -UspiD'"' 
18 } 7 

19 } 7 

20 spil pins a: spil@o { 

21 Spi { 

Ze Siri; pins = USsprILgro's 
d. BIlFrr,fuUulction = "Spurl"; 
24 ) 

25 ) 

26 

21 


而 SPI0 这 个 便 件 实际 上 需要 用 到 spi0_pins_a 对 应 的 spi0grp 这 一 组 引 脚 ， 因 此 在 atlas6-evb.dts 中 通过 
pinctrl-0 引 用 了 它 ， 如 代码 清单 18.16 所 示 。 


代码 清单 18.16 ”给 设备 节点 指定 引 脚 群 


spi@bO00d0000 { 
status = "okay"; 


TIE a = "default"; 





1 
2 
i 
4 
5 
673 


到 目前 为 止 ， BAN LJ S ER -DRENERE R18.27 SCE TR JE. labelUA 


及 phandle 等 信息 。 


节点 名 
单元 地 址 





18.3 ”由 设备 树 引 发 的 BSP 和 驱动 变更 


有 了 设备 树 后 ， 不 再 需要 大 量 有 的 板 级 信息 ， 壁 如 过 去 经 第 在 arch/arm/plat-xxx 和 arch/arm/mach-xxx 中 实 
施 如 下 事情 。 


1 .注册 platform device， 绑 定 resource， 即 内 存 、 耻 Q 等 板 级 信息 


通过 设备 树 后 ， 形 如 : 


Stalac BStPuct IeBO0ubce xxx resources] | = 4 
OJ = 
weber = y 
.end = ay 
.flags = IORESOURCE MEM, 
by 
[fl] = f 
sober = ay 
nd = a 
.flags = IORESOURCE LRO; 
by 
}; 
static struci platforn device xxx device = 4 
.name = o 9 uU 
PENS) = -l, 
. dev = { 
platform ‘data = &Xxx data, 
by 
~LeSource XXX resources, 


.num resources ARRAY SIZE(Xxx resources), 


之 类 的 platform_device 代 码 都 不 再 需要 ， 其 中 platform device 会 由 内 核 自 动 展开 。 而 这 些 resource 实 际 


典型 的 ， 大 多 数 总 线 都 与 “simple bus” 兼 容 ， 而 在 与 SoC 对 应 的 设备 的 .init_machine 成 员 函 数 中 ， 调 用 


2. 注 册 i2c board info， 指 定 IRQ 等 板 级 信息 








形 如 : 


static Struct X20 boaro inflo. snl tdata afeb9260 120 devices| | = 1 
{ 
I2C BOARD INFO("tlv320aic23", Oxla), 
I2C BOARD INFO("fm3130", 0x68), 


I2C BOARD INFO("24c64", 0x50), 


类 的 i2c board info 代 码 日 前 不 再 需要 出 现 ， 现 在 只 需要 把 tlv320aic23、fm3130、24c64 这 些 设备 节点 填 
o -— — mm 类 似 于 前 面 的 代码 ; 
T2 c8 lx. 


compatible = "acme,al234-12c-bus"; 


rtod58-1 
compatible = "maxim,ds1338"; 
reg = «58»; 
interrupts = < 7 3 >; 
}; 
}; 


3. 注 册 spi board info， 指 定 IRQ 等 板 级 信息 


形 如 : 


GUAELO Struce spi Doard into artebp9200 spa devriocese[l] e 4 
{ /* DataFlash chip */ 
.modalias "med dararlasnm", 
Snip select Ly 
“Max Speed hz Lo: = 1000 v 1000, 
.bus num UF 


之 类 的 spi board infp 代 码 目 前 不 再 需要 出 现 ， 与 KC 类 似 ， 现 在 只 需要 把 mtd dataflash 之 类 的 节点 作为 SPI 
BH T- BUT, SPI hostiprobe CO. RERO spi register master OR, AH 


展开 依附 于 它 的 从 机 ，spear1310-evb.dts 中 的 st，m25p80SPI 接 口 的 NOR Flash $$ zi Jl P : 


spi0: spige0100000 4 
status = "okay"; 
num-cs = «3»; 

m25p80@1 { 
compatible = "st,m25p80"; 


上 


4. 多 个 针对 不 同 电路 板 的 设备 ， 以 及 相关 的 回调 函数 


在 过 去 ，ARM Linux 针 对 不 同 的 电路 板 会 建立 由 MACHINE START 和 MACHINE END 包 围 的 设备 ， 
引入 设备 树 之 后 ，MACHINE_START 变 更 为 DT_MACHINE_START， 其 中 含有 一 个 .dt_compat 成 员 ， 用 于 
表明 相关 的 设备 与 .dts 中 根 节点 的 兼容 属性 的 兼容 关系 。 


这 样 可 以 显著 改善 代码 的 结构 并 减少 见 余 的 代码 ， 在 不 文 持 设备 树 的 情况 下 ， 光 是 一 个 S3C24xx 就 存 
在 多 个 板 文件 ， 壁 如 mach-amlm5900.c、mach-gta02.c、mach-smdk2410.c、mach-qt2410.c、mach-rx3715.c 
等 ， 其 累计 的 代码 量 是 相当 大 的 ， 板 级 信息 都 用 C 语 言 来 实现 。 而 采用 设备 树 后 ， 我 们 可 以 对 多 个 SoC 和 
板子 使 用 同一 个 DT_MACHINE 和 板 文 件 ， 板 子 和 板子 之 间 的 差异 更 多 只 是 通过 不 同 的 .dts 文 件 来 体现 。 


5. 设 备 与 驱动 的 史 配 方式 


6. 设 备 的 平台 数据 属性 化 


在 Linux 2.6 F, IK) ATE H X. platform data， 在 arch/arm/mach-xxx 注 册 platform device. 
i2c board info. spi board info 等 的 时 候 绑 定 platform data， 而 后 驱动 通过 标准 API 获 取 平 台数 据 。 璧 如 ， 
企 arch/arm/mach-at91/board-sam9263ek.c 下 用 如 下 代码 注册 gpio keys 议 备 ， 它 通过 gpio keys platform data 
结构 体 来 定义 platform data. 


Stabic Struct ODIO keys button ek DubttonseL] = 1 
{ j= BPly TlertceolL oT 97 
. code = BIN BERT, 
.gpio = ATO 1 PIN Coy 
.active low = dy 
SS = WAGE, IUE 
.wakeup = 1, 
by 
{ y9 BPZ, “rrontcLuce™ */ 


j 
^; 
starie Struct gpio keys Plat orm data ek button daca = 1 


ADUCLORS = 6k DUttOns, 
Notttorns = ARRAY SIZE (6K buttons); 
); 
Static Struct platform device ek button device e 4 
.name — "gpio-keys", 
"E = eh. 
Qum resources = Uy 
.dev = { 


platform datas &ek button data, 
} 


设备 驱动 drivers/inputkeyboard/gpio keys.c 则 通过 如 下 简单 方法 取得 这 个 信息 。 


Static int Jgplo keys probe(struct platformsu device: ^pdev) 


{ 
struct device *dev = &pdev->dev; 
const struct gplo keys platform data *pdata = dev get platdata-(dev); 


} 


在 转移 到 设备 树 后 ，platform data 便 不 再 豆 欢 放 在 arch/arm/mach-xxx 中 了 ， 它 需 要 从 设备 树 的 属性 中 
获取 ， 比 如 一 个 电路 板 上 有 gpio_keys， 则 只 需要 在 设备 树 中 添加 类 似 arch/arm/boot/dts/exynos4210- 








origen.dts 中 的 如 代码 清单 18.17 所 示 的 信息 则 可 。 
代码 清单 18.17 在 设备 树 中 添加 GPIO 按 键 信息 


lgpio keys { 


2 compatible = "gpio-keys"; 

3 #address-cells = «1»; 

4 #Size-cells = «0»; 

5 

6 up { 

J label = "Up"; 

8 gpios = «&gpx2 0 1»; 

9 linux code = REY DP; 
10 gpio-key,wakeup; 
11 E- 
12 
i down { 
14 label = "Down"; 
15 golos = «&gpx2 1 l1»; 
16 linux,code - «KEY DOWN»; 


17 gpio-key,wakeup; 


19 
20) 7 


而 drivers/input/keyboard/gpio_keys.c 则 通过 以 of 开头 的 读 属 性 的 API 来 读 取 这 些 信息 ， 并 组 织 出 


gpio keys platform _ data 结构 体 ， 如 代码 清单 18.18 所 示 。 


代码 清单 18.18 ”在 GPIO 按 键 驱动 中 获取 .dts 中 的 键 描述 


lLstatice struct gpio keys platform data * 
ZO0DpliO keys get devtree pdata (struct device *dev) 


34 
4 Struct device mode “node; “pp; 
S strucb gpro Keys: platfosm data “pdaca; 
6 struct gplo keys Dutton "Dutton; 
7 int error; 
8 int BDUttons; 
9 int i; 
10 
11 node = dey-oor node; 
12 if (!node) 
173 return ERR PTR(-ENODEV); 
14 
15 nbuüttons = Of get Child: count (node); 
16 if (nbuttons == U) 
17 return ERR PTR(-ENODEV); 
18 
19 pdata = devm kzalloc (dev, 
20 sizeof (*pdata) + nbuttons * sizeof(*button), 
ZA GFP KERNEL); 
22 if (!pdata) 
oS return ERR PTR(-ENOMEM):; 
24 
2 pdata-e-Duttons = (Struct gplo keys Dutton *)i(pdata + Ly 
26 pdata->nbuttons = nbuttons; 
21 
28 posLta- rep = Ilor get property (node, "autorepesu'", NUL); 
29 
30 i = 0; 
Ja Imt JgJplo; 
03 enum Of gplo tlags: tlags; 
34 
2 Lr (Or. find property (pp, "gplos', NULL). 4 
36 Pdata=-nbullons=—; 
37 dev warn(dev, "Found button without gpios\n"); 
DD continue; 
oo } 
40 
41 galo = Of ge. gpa tlags (pp, Ur S&ilags); 
42 if (Gone «o» ul 
43 error = p10; 
44 LE (erbpor l= SEPROBE DEFER) 
45 dev.err(dev, 
46 "Failed to get gpio flags; error: $0 un", 
4] error); 
48 return ERE -PIR(error) 
49 j 
50 
51 button = &podata--»bDuttons[|ri-tt]; 
92 
Do bütton-»gprio = gpro; 
24 button--actrive Low = flags € OF GPIO ACTIVE. LOW; 
55 
56 if. (Ol. property read u22(Dp, “linux, code”, sbutton=>code)) 4 
9] dev err (dev, "Button without keycode: Ox$x Xn", 
OD button-»gprio); 
09 return ERR PTR(-EINVAL); 
60 j 
61 
O2 putton-»5desc = of get propertyipp, “label”, NULL); 
63 
64 if (Of property read us2(pp, "linux,input-type" , &button--Ltype)) 
6:5 DULCOBD-cLYDe' = EV KEY; 
66 
67 Dubton-^wakeup = 1 hor. gel property (pp; "gplo-key,wakeup^", NULL)? 
68 
69 LE (Of property read us2z (pp, "debounce-onterval", 
70 &button->debounce interval) ) 
71 button-»debounce interval = 5; 


74 if pdata-^nbuttons.see 0) 


TO return ERR PTR(-EINVAL); 
76 

77 return pdata; 

78} 


上 上述 代 码 通过 第 31 行 的 for each child of node () iiJAigpio keys i A RINPTPA Sia, JPXSIX 
of get gpio flags (Ù) 、of property read u32 O 等 API 谈 取出 来 与 各 个 子 节 点 对 应 的 GPIO、 与 每 个 GPIO 
对 应 的 键盘 键 值 等 。 


18.4 ”常用 的 OF API 


除了 前 文 介绍 的 of machine is compatible () 、of device is compatible () 等 常用 函数 以 外 ， 在 Linux 
的 BSP 和 张 动 代码 中 ， 经 第 会 使 用 到 一 些 Linux 中 其 他 设备 树 的 API， 这 些 API 通 第 令 冠 以 of 前 级 ， 它 们 的 
实现 代码 位 于 内 核 的 drivers/of 目 录 下 。 


这 些 常用 的 API 包 括 下 面 内 容 。 


Struct. devrce mode 人 device node *from, 
const Char "type, const Char *compatible); 


AREF, XAfd x4 RA. WAKA Pe, AS SRA. HES ES AR eK BV 
的 输入 参数 匹配 ， 在 大 多 数 情况 下 ，ffom、type 为 NULL， 则 表示 遍历 了 所 有 节点 。 


2. 谈 取 属 性 


const char *propname, u ouL Values, Size © 82)7 


int Of property read ulo array(const struct device node *np; 
const Char *propname, Ulo ^out values, size t S2); 

int. Ol property read U34 array (Const SLIUGCL device node *npy 
const Chiar “prophane, u22 *out values. Size © $2)7 

Lnt ot Property redd uo4(const Struct device node ”np Const Char 
^propname, uo4 *our value); 





恋 取 设备 节点 np 的 属性 名 ， 为 propname， 属 性 类 型 为 8、16、32、64 位 整 型 数组 。 对 于 32 位 处 理 器 来 


讲 ， 最 常用 的 是 of property read u32 array ©) 。 
如 在 arch/arm/mm/cache-12x0.c 中 ， 通 过 如 下 语句 可 读 取 L2cache 的 "arm，data-latency" 属 性 : 


Or Property redd us- Srray nb "aru data-latency", 
data, ARRAY SIZE(data)); 


fEarch/arm/boot/dts/vexpress-v2p-ca9.dtsHH , XMAS "amm, data-latency" /&T'EHJL2cache B ki ll P: 


L2: cache-controller@leQOQa000 1 
compatible = "arm,p1310-cache"; 
reg = <Oxle00a000 0x1000>; 
interrupts = «0 43 4»; 
cache-level = «2»; 
arm,data-latency = «1 1 1»; 
arm,tag-latency = «1 1 1»; 

) 


在 有 些 情况 下 ， 警 型 属性 的 长 度 可 能 为 1， 于 是 内 核 为 了 方便 调用 着 ， 义 在 上 述 API 的 基础 上 封 疤 出 
了 更 加 人 简单 的 读 单 一 整形 属性 的 API， 它 们 为 int of property read u8 (©) ~ of property read ul6 O 等 ， 实 


现 于 include/linux/ofh 中 ， 如 代码 清单 18.19 所 示 。 


代码 清单 18.19 ”设备 树 中 整 型 属性 的 读 取 API 


lSrtatlo Inline Nt Or property read U0 (Const .Strucct device node “np; 


Z const char *propname, 

3 uo Tout value) 

ai 

5 return Of property read uo array (np; propname, out value, 1); 
6 } 

7 

oOstatrie inline int ob property read ulo(cONHSL struct device node “np, 

J const char *propname, 

10 ülo *out value) 

LL 

12 return Of property read ulo.arravy (np; propuame, Out value, 1)7j 
13] 

14 

lostatric Inline int OF property read u321co0nsSt Struct-device node “np, 

1:6 const char *propname, 

17 U 2 *Qgu value) 

18 { 

L9 return Of Property read u32 aridan; prophame, out value, 1); 
20] 


ER EMEN FIR PE a HI. OT A APT LF: 


int 人 device node *np, const char 
*propname,const char out string); 


LHt Of Property redd String index (struce device node “np, Const char 
*propname,int index, const char **output); 






HIE BEAR TS FR BE, Jnd ee AF E ABRE B)SindexT ^E TP. Wdrivers/clk/clk.c A HY 
of clk get parent name O PR ZILB X of property read string index ( W Jjclkspec T xa BJ PT "clock- 


output-names" ^£ IF FR 25 2H Je VE « 
代码 请 单 18.20 ”在 驱动 中 读 取 第 index 个 字符 串 的 例子 


loonst Char “or chk get parent mame(Suruct device node “np, anu Index) 


24 

3 struct Of Bhandle args clkspec; 

4 Const. Char “Clk. Name, 

S TD qo 

6 

7 if (index < 0) 

8 return NULL; 

J 
10 ro = OF Darse phandle with res (ng, “clocks”, "solLOOCKk-cells", index, 
11 &clkspec) ; 
12 if (rc) 
13 return NULL; 
14 
ils: LI XOI Property read Strang andex(clkspec.np;, "oloock-outputenames"', 
16 clkepecargs Count -clkspec.,args(0]' $ $5 
17 &clk name) < 0) 

18 clk name = GlESpeoc.upeouame; 

19 
20 Or node PU (OLS Scu np)? 
AL return clk name; 
22} 


ZOEXPORT SYMBOL GPL(oOr clk get parent name); 


REA FIE Ab eS CS A J PESO AY a ze 7 RK A, FO APR fa, RUD 


Static inline bool of property read bool (const struct device. node: “np; 


const Char ^propname); 


如 果 设 备 节 点 np 含有 propname 属 性 ， 则 返回 true， 否 则 返回 false。 一 般 用 于 检查 空 属性 是 否 存在 。 


3. 内 存 映 射 


void iomem *of iomap(struct device node *node, int index); 


EZR APIA) WB Bee ih ET e AEX IB] ioremap O , indexzé AW f£ Ex d WL ER 
的 reg 属 性 有 多 段 ， 可 通过 index 标 示 要 ioremap O 的 是 哪 一 段 ， 在 只 有 1 段 的 情况 ，index 为 0。 采 用 设备 树 
后 ， 一 些 设 备 驱 动 通 过 of iomap O 而 不 再 通过 传统 的 ioremap O 进行 映射 ， 当 然 ， 传 统 的 ioremap ©) 


的 用 户 也 不 少 。 


int Cr device node dev, int Index, 
struct resource ^r); 


上 述 API 通 过 设备 节 扣 获取 与 它 对 应 的 内 存 资 源 的 resource 结 构 体 。 其 本 质 是 分 析 reg 属 性 以 获取 内 存 
基地 址 、 大 小 等 信息 并 填充 到 struct resource*r 参 数 指 同 的 结构 体 中 。 











ZAIN 


4. 解 析 中 断 


&nsrgned aint irg or parse dne map(struct device node *dev, int index); 


通过 设备 树 获 得 设备 的 中 断 号 ， 实 际 上 是 从 .dts 中 的 interrupts 属 性 里 解析 出 中 断 号 。 知 设备 使 用 了 多 
个 中 断 ，index 指 定 中 断 的 索引 号 。 


5 RAS Ros DLW platform device 


struct platform device “of Tind device by node(struct device node *np); 


在 可 以 拿 到 device _ node 的 情况 下 ， 如 果 想 反 同 获取 对 应 的 platform device, "JEH Ex API 
当然 ， 在 已 知 platform device 的 情况 下 ， 想 获取 device node 则 易如反掌 ， 例 如 : 


Static IND S1rrsoc dma probe(struct platrorm device *op) 
{ 


SEC device node rdn = .ope^dev.or node; 


} 


18.5 总 结 


宛 斤 看 ARM 社 区 的 大 量 垃圾 代码 导致 Linus 盛 八 ， 因 此 该 社区 在 2011~2012 年 进行 了 大 量 的 修整 工 
作 。ARM Linux 开 始 围绕 设备 树 展 开 ， 设 备 树 有 自己 的 独立 语法 ， 它 的 源 文件 为 .dts， 编 译 后 得 到 .dtb， 
Bootloader 在 引导 Linux 内 核 的 时 候 会 将 :dtb 地 址 告知 内 核 。 之 后 内 核 会 展开 设备 树 并 创建 和 注册 相关 的 设 
备 ， 因 此 arch/arm/mach-xxx 和 arch/arm/plat-xxx 中 的 大 量 用 于 注册 platform、I*C、SPI 等 板 级 信息 的 代码 被 市 
除 ， 而 驱动 也 以 新 的 方式 与 在 .dts 中 定义 的 设备 节点 进行 匹配 。 


第 19 革 Linux 电源 官 理 的 系统 染 构 和 驱动 
dH Wu 
LinuxfE 1H 2x HL SUR] LH] C2 AH Sa, MATARA mA, Ae Se. 
19.1 T BIAS f' Linux EYE E 338 RS s SR AY o 


19.219.854) 31635 [| CPUFreq. CPUIdle, CPUAÉi3 EJ AJ ES S d uli Regulator, OPPLA / Hadi 
党 理 的 调试 工具 PowerTop 。 


19.9 太 讲解 了 系统 挂 起 到 RAM 的 过 程 以 及 人 设备 驱动 古 如 何 对 挂 起 到 RAM 文 持 的 。 
19.10 广 讲解 了 设备 驱动 的 运行 时 挂 起 。 


本 和 章 是 Linux 设 备 张 动工 程 师 必 备 的 知识 体系 。 


19.1 _ Linux 电源 管理 的 全 局 架构 


Linux 电 源 官 理 非常 复 森 ， 军 扯 到 系统 级 的 每 机 、 频 紊 电压 变换 、 系 统 空 几 时 的 处 理 以 及 每 个 设备 驱 
动 对 系统 待机 的 文 持 和 每 个 设备 的 运行 时 CRuntime) 电源 管理 ， 可 以 说 它 和 系统 中 的 每 个 设备 驱动 都 奶 
EH. 


对 于 消费 电子 产品 来 说 ， 电 源 管 理 相 当 重 要 。 因 此 ， 这 部 分 工作 往往 在 开发 周期 中 占据 相当 大 的 比 
重 ， 图 19.1 呈 现 了 Linux 内 核电 源 官 理 的 整体 架构 。 大 体 可 以 归纳 为 如 下 几 类 : 


YY 


1) CPUfTE3S TT IT TR Ji AR 1 BIE FT 2 AS FEL Js A KE HK CPUF req o 


VY 


2) CPUE RAT NN AS 8 HN PE KG DE TU CPUIdle. 


VY 


3) BARA FCPUM ZEIT SF 


YY 


4) 系统 和 设备 针对 延迟 的 特别 再 求 而 提出 申请 的 PM QoS, ERIE FCPUIdleHy HAR - 


YY 


5) 设备 驱动 针对 系统 挂 起 到 RAM/ 便 盘 的 一 系列 入 口 隙 数 。 


YY 


6) SoC 进 入 挂 起 状态 、SDRAM 自 刷新 的 入 口 。 


\Y 


7) Oth HIS AT IN De HD EE, RIME TR LAS RA o 


8) JEEE E fakir WEBER (OPP 模块 完 成 ) 文 撑 ， 各 驱动 子 系统 部 可 能 用 到 。 


用 户 空 间 
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图 19.1 Linux 内 核电 源 管理 的 整体 架构 


19.2 ”CPUFreq 驱 动 


CPUFreq 了 系统 位 于 drivers/cpufreq 目 孙 下 ， 和 负责 进 行 运 行 过 程 中 CPU 和 频 雍 和 电压 的 动态 调整 ， 即 
DVFS (Dynamic Voltage Frequency Scaling， 动 态 电 压 频 京 调整 )。 运 行 时 进行 CPU 电 压 和 频率 碳 整 的 原 
ke: CMOS 电 路 中 的 功 耗 与 电压 的 平方 成 正比 、 与 频率 成 正比 (Px~xfV*) ， 因 此 降低 电压 和 频率 可 降低 功 
TE. 

CPUF req EZ tz F drivers/cpufreq/cpufreq.c F, "73$ SoOCHJCPUFreqJE/]E] Scd Bt  — E25 
一 的 接口 ， 并 实现 了 一 套 notifier 机 制 ， 可 以 在 CPUFreq 的 策略 和 频率 改变 的 时 候 同 其 他 模块 发 出 通知 。 另 
外 ， 在 CPU 运行 频率 发 生 杰 化 的 时 候 ， 内 核 的 loops per jiffy ESR EIME o 


19.2.1 SoCHYCPUFreqek ay KEN, 
每 个 SoC 的 基体 CPUFreq 张 动 实例 只 需要 实现 电压 、 频 雍 表 ， 以 及 从 硬件 层面 完成 这 些 变 化 。 
CPUFreqfZ bz BE san FAPILAZESoCLEM H 5 H CPUFreq k3): 
intcpufreq register driver(struct cpufreq driver *driver data); 


其 参数 为 一 个 cpufreq driver 结构 体 指针 ， 实 际 上 ，cpufreq driver 2X f —~SAVEHISoCHYCPUFreq 3X 
动 的 主体 ， 访 结构 体形 如 代码 清单 19.1 所 示 。 


代码 清单 19.1 cpufreq driver 结构 体 


LSerUuCcl. Cpourreg driver 1 


2struct module *owner; 

3char name[CPUFREQ NAME LEN]; 

4u8 Lladgs; 

5 

6 /* needed by all drivers */ 

Tint (*init) (Stract cpurredg policy “policy); 
Gant (*verify) (struct ChUfreg policy policy); 
9 
10 /* define one out of two */ 

Lint (*setpolicy) (SEPUCL Courmeq policy “~policy).; 
LZ in (*target) (Graci cpurreg policy *policy), 


loünsigned Xnttarget Ered, 
14unsigned int relation); 


15 

16 /* should be defined, if possible */ 

l7unsigned int (*get) (unsigned intcpu); 

18 

19 7 Optional */ 

20unsigned int (*getavg) (SEPLOD ODULDeq policy *policy, 
2lunsigned intcpu); 

221nt (*bios limit) (intcpu, unsigned int *limit); 
a 

24int (*exit) (SEPUCL cpurreq policy *DOIXZCY) 
Zn (*suspend) (SELUCL. ee policy *DOLICYyJ 
261int (*resume) (Struct ODuLrteq policy *polrcy)s 
2IStruct£iredg altr SUO 

28]; 


其 中 的 owner 成 员 一 般 被 设置 为 THIS MODULE; name 成 员 是 CPUFreq 驱 动 的 名 字 ， 如 
drivers/cpufreq/s5pv210-cpufreq.cix Einame7Js5pv210, drivers/cpufreq/omap-cpufreq.ciX Einame7Jomap; flags 
fe CHR OREN fae, ERU. Av SCPUFREQ CONST LOOPS， 则 是 告诉 内 核 loops per jiffy 不 会 因为 
CPU 频 紊 的 变化 而 变化 。 


init OO) 成 员 是 一 个 per-CPU 和 初始 化 函数 指针 ， 每 当 一 个 新 的 CPU 伞 注册 进 系统 的 上 时候， 该 水 数 束 外调 
用 ， 访 函数 接 有 党 一 个 cpufreq_ policy 的 指针 参数 ， 在 init O 成 员 图 数 中 ， 可 进行 如 下 设置 : 


LT 
policy-^cpulnrfiosmax reg 


上 述 代码 描述 的 是 该 CPU 文 持 的 最 小 频率 和 节 大 频率 〈 单 位 是 kHz) 。 


polircy-^cepurintosgtransitrion Latency 


ERR AS TIS HN x CPU EFT MUS UH Bru SY EI CH zens) 


policy- -CUr 


上 述 代 码 描述 的 是 CPU 的 当前 频率 。 


polaey-^policy 
policy->governor 
policy- min 
polricvy-cmax 


ERR MISE IACPUNTIR E NES, DAR EDR ST OL P. ASR SCIEN Be). IOKCPUMUS « 


verify O R RAZ TFX A P HJCPUFreq?R Re V VEST “ACHE rE PAZ IE. BESSA PE UNI 
WERI, ARAOR D E LP] MS ATS cet s ST Soe IT MS BE A CEE TC EET RIB IE TET 
V, va PRS SSCL, HY AA BU PSU ek Z: 


ee tag oa cpufreq policy *policy, unsigned intmin freq, 
setpolicy O 成 员 函 数 接 有 党 一 个 policy 参 数 〈 包 侣 policy->policy、policy->min 和 policy->max 等 成 员 ) ， 
实现 了 这 个 成 员 函 数 的 CPU 一 般 具 备 在 一 个 范围 《〈limit， 从 policy->min 到 policy->max) 里 上 自动 调整 频率 的 
能 力 。 目 前 只 有 少数 驱动 〈 如 intel pstate.cfllongrun.c) 包含 这 样 的 成 员 函 数 ， 而 绝 大 多 数 CPU 都 不 会 实现 
Ie ea, Me R Etarget O BPA, target O 的 参数 和 直接 就 是 一 个 指定 的 频率 。 


target ©) 成 员 函 数 用 于 将 频 座 调整 到 一 个 指定 的 值 ， 接 受 3 个 参数 : policy. target freq 和 relation。 
target freq 是 目标 和 频率， 实际 驱动 总 是 要 设 定 真实 的 CPU 频 革 到 最 接近 于 target freq, FFA KEHNA DAH 
位 于 policy->min 到 policy->max 之 间 。 在 设 定 频 对 接 近 target freq 的 情况 下 ，relation 乔 为 
CPUFREQ REL L, WHR NRE NSE DAK T Ek ] target freq; relation 右 为 CPUFREQ REL H， 则 暗 


ZI A ELITS NL T Be T target. freq. 
3€19.13853^ [f setpolicy C) 和 target ©) 所 针对 的 CPU 以 及 调用 方式 上 的 区 列 。 


表 19.1 setpolicy © target O 所 针对 的 CPU 及 其 调用 方式 上 的 区 列 
Setpolicy() Target() 
CPU 具备 在 一 定 范 围 内 独立 调整 频率 的 能 力 CPU 只 能 被 指定 频率 


CPUfreq policy 调用 到 setpolicyO, Hj CPU 独立 在 一 个 范 | 由 CPUFreq 核心 层 根 据 系统 负载 和 策略 综合 决定 目 
围 内 调整 频率 SES 


根据 心 片 内 部 PLL 和 分 频 器 的 关系 ，ARM SoC 一 般 不 具备 独立 调整 频率 的 能 力 ， 往 往 SoC 的 CPUFreq 
驱动 会 提供 一 个 频率 表 ， 糯 率 在 该 表 的 范围 内 进行 变更 ， 因 此 一 般 实现 target OO 成 员 函 数 。 


CPUFreq 核 心 层 提供 了 一 组 与 频率 表 相 关 的 辅助 API。 


Intopufreq frequency Lable cpurnfo(sLruct.coputreg policy “policy, 
Struct gpurreq trequency table *tapDlie); 


它 是 cpufreq driverHJinit ©) 成 员 图 数 的 助手 ， 用 于 将 policy->min 和 policy->max 议 置 为 与 


cpuinfo.min freq 和 cpuinfo.max freq4H[r] BJ 4B - 


Lntopurteg frequency table veriryisbructeocpufreg policy “policy, 
SLLUCE. ODUEPOd Frequency Table table)., 


它 古 cpufreq_driver 的 verify() M P PAH BI, BED BZD LTUS AXBJCPUAIUSS 17 T policy->min#] 
policy->max HJ Tis Hil AY « 


lntopurreg frequency table Targeu (struct Courred policy “policy, 
SUEUCL CouUrtred frequency table "Lapls, 

unsigned xnittarget Ireg, 

unsigned int relation, 

unsigned int *index); 





O 


它 和 是 cpufreq_driver 的 target ©) 成 员 疯 数 的 助手 ， 返 回 需 要 设 定 的 频率 在 频率 表 中 的 过 3 


省 略 挥 具体 的 细节 ，1 个 SoC 的 CPUFreq 了 驱动 实例 drivers/cpufreq/s3c64xx-cpufreq.c 的 核心 结构 如 代码 清 
单 19.2 所 示 。 


代码 清单 19.2”S3C64xx 的 CPUFreq 驱 动 


lsStautrc unsigned Long regulator latency; 

< 

ETUGOL sS3064xx dvfs- | 

4unsigned intvddarm min; 

ounsigned intvddarm max; 

6]; 

7 

ostatic struct s3co4xx dvfs s3ce64xx dvfs table[] = { 
9[0] = { 1000000, 1150000 }, 
IO) 
1L[4] = [ 1300000; 1350000 1; 
Ls 
13 
l4static struct cpufreq frequency table s3co4xx freq table[] = | 
154 0; 66000 P, 
16% D, 100000. J, 


Lia 

18{ 0, CPUFREO TABLE END f3 

19]; 

20 

Zlstdtic int s5064xx cpurreq verify speed(struct cpurireq policy *policy) 
221 

23911 TDOLlLO--Opu ie U) 

24 return -EINVAL; 

29 

Zoreturn epurreg Trequency table verify (Policy; eo2co2xx Tred table); 
2 

28 

29statric Unsigned nt s5co4xx cputreq get speed (unsigned intcpu) 

DU 

Shik (opu I= 0) 

32 return 0; 

33 

34returnm Clk get race (armclk) | L000s 

29} 

36 


SISUHLIC inb Se argel (oL epurreq policy *policy, 


38 unsigned inttarget Iren; 


39 unsigned int relation) 

40 { 

41.. 

42ret = cpufreq frequency table target(policy, s3c6o4xx freq table, 
43 target Lreg, telaviony; &2)7 

4 4... 


45freqs.cpu = 0; 

ZoLreqs.old = olk get rate(armolk) / 1000; 

A7freqs.new = s3ce4xx freq table[il.frequency; 
48freqs.flags = 0; 

49dvfs = &s3co4xx dvfs table[s3co4xx freq table[il.index]; 


Ei 
5lif (freqs.old == fregs.new) 
32 return 0; 
DO 
S4Cpurreqd notlry transricrion(arreqs, CPUFREO PRECHANGE); 
Ds 
56if (vddarm&&freqs.new»fregs.old) { 
2 ret = regulator set vollage(vddarm, 
58 dvfs-»vddarm min, 
59 dvis=>vddarm max); 
60 
61] 
62 
Coret = Clk set rate(adrmoclk, freqs.new ~ 1000); 
64... 
o»cpufreg notify.transation(&rredqs, CPUFREO POSTCHANGE); 
66 
67if (vddarm&&fregs.new<freqs.old) { 
68 fet = regulator set voltage (vddarm, 
69 dvfs-»vddarm min, 
70 dvfs-»vddarm max); 
Jb 
12] 
73 
74return O0; 
Tol 
16 
Tio atio INU S2Codxx Cpuireg driver 2nit(strüucc Cpurffeg policy “polacy) 
78 { 
(ae 
oU0grmolk = clk ec(NULhy, “armclk”™), 
Cl 
o2zvddarm = regulator gët (NULL; "vadarm"); 
83 
84s3ce4xx cpufreq config regulator(); 
85 
OOIIFGOq = SsCodxx treq table; 
Siwhile: (ireq->trequency I= CPUEREO. TABLE END). 4 
88 unsigned. long £2 
39 
90 } 
2d 
92policy->cur = clk get rate(armclk) / 1000; 
vopolrey-oopunigtotransertron.Llasbtenoy e (500 * 1000) F regulator latency; 
oO4ret = ocpurreg frequency table cpuinro(policy, s3co4xx freq table); 
9 
96return ret; 
97} 
gg 
29stdtlOSLruct Gpürreg driver 53004xx cpurreg driver = 4 
100.owner = THIS MODULE, 
LOL it lags = 0, 
102.verify = s3co4xx cpufreq verify speed, 
103.target = S3CO4xxK cpurfreq set target, 
104.get = 02 Cpurreg get speed; 
LOS nae = s3co4xx cpufreq driver init, 
106.name = "s3c", 
20742 
108 
l09sStdtric int. — init $2064XX cputreq int (void) 
110( 
llireturn cpufreq register driver (ésscodxx cpurtreq driver); 
112} 


ll3module anit (sscoadxx cpurredg init); 


583747s3c64xx_cpufreq_set_target O WEE H MWA ENR, EVAR T 
cpufreq frequency table target ©) 从 s3c64xx 文 持 的 频 深 表 s3c64xx freq tableH# f Sar AR. TER TIT 
频率 和 电压 设置 环节 ， 用 的 都 是 Linux 的 标准 API regulator set voltage () 和 clk set rate OO 之 美的 图 数 。 


第 111 行 在 模块 初始 化 的 时 候 通 过 cpufreq register driver ©) 注册 了 cpufreq driver 的 实例 ， 第 94 行 ， 在 
CPUFreq 的 初始 化 阶段 调用 cpufreq frequency table cpuinfo O 注册 了 频率 表 。 关 于 频率 表 ， 比 较 新 的 内 核 
喜欢 使 用 后 面 章 站 将 介绍 的 OPP。 


19.2.2 ”CPUFreq 的 策略 


SoCCPUFreq 动 只 是 设 定 了 CPU 的 频率 参数 ， 以 及 提供 了 设置 频 蒜 的 途径 ， 但 是 它 并 不 会 管 CPU 目 
刁 究 竟 应 该 运行 在 哪 种 频率 上 。 完 葛 频 率 依 据 的 是 哪 种 标准 ， 进 行 何 种 变化 ， 而 这 些 完 全 由 CPUFreq 的 条 
WA Cpolicy) re, XXe HA UIe19.2 TZ -o 


表 19.2 CPUFrep 的 策略 及 其 实现 方法 


CPUFreq 的 策略 策略 的 实现 方法 
cpufreq ondemand 平时 以 低速 方式 运行 ， 当 系统 负载 提高 时 按 需 自动 提高 频率 
cpufreq performance CPU 以 最 高 频率 运行 ， 即 scaling max freq 


字面 含义 是 传统 的 、 保 守 的 ， 跟 ondemand 相似 ， 区 别 在 于 动态 频率 在 变更 
的 时 候 采 用 渐进 的 方式 


cpufreq powersave CPU 以 最 低频 率 运 行 ， 即 scaling min freq 


cpufreq conservative 


cpufreq userspace 计 根 用 户 通过 sys 节点 scaling setspeed 设置 频率 


在 Android 系 统 中 ， 则 增加 了 1 个 区 互生 略 ， 该 蛇 略 适合 于 对 延 到 敏感 的 UI 区 互 任务 ， 当 有 UI 交 互 任务 
ESTES ABR, ASRS Se BE DIN Be FF YH Hd FE CPU BLK, 


FAM SZ, RARIS LA CPUFreq h RER [H] XE. S CPUE H dp, CPUFreqZ DRIP H 
MU XB IZ HASSoCICPUFreqUE 5], ASKS CUE, TERMS IACI, R19.22 


CPUFreq 核 心 层 CPUFreq mg 








SoC CPUFreqJl zJj 


CPU fiti fF 








图 19.2 CPUFreq. AAW. WEE Jp» 


FAP 28 |B] — R4 n] 3X /sys/devices/system/cpu/cpux/cpufreq TJ A X w HR CPUFreq. "n, FAKE 
CPUFreq 人 到 700MHz， 米 用 userspace 宁 略 ， 则 运行 如 下 命令 : 


# echo userspace > /sys/devices/system/cpu/cpu0/cpufreq/scaling governor 
# echo 700000 > /sys/devices/system/cpu/cpu0/cpufreg/scaling setspeed 


19.2.3 ”CPUFreq 的 性 能 测试 和 调 优 


Linux 3.1 以 后 的 内 核 已 经 将 cpupower-utils 工 具 集 放 入 内 核 的 tools/power/cpupower 目 录 中 ， 该 工具 集 当 
中 的 cpufreq-bench 工 上 其 可 以 帮助 工程 师 分 析 灯 用 CPUFreq 后 对 系统 性 能 的 影响 。 


cpufreq-bench 工 其 的 工作 原理 是 模拟 系统 运行 时 候 的 “ 空 几 一 忙 一 空 几 一 忙 ” 场 景 ， 从 而 触 友 系统 的 动 
态 频 深 变 化 ， 人 然后 在 使 用 ondemand、conservative、interactive 等 宁 略 的 情况 下 ， 计 算 在 做 与 performance 局 频 
模式 下 同样 的 运算 完成 任务 的 时 间 比 例 。 


太 叉 编译 该 工具 后 ， 可 放 入 目标 电路 板 文件 系统 的 /usr/sbin/ 守 目录 下 ， 运 行 访 工具: 


f cpufreq-bench -1 50000 -s 100000 -x 50000 -y 100000 -g ondemand -r 5 -n 5 -v 


会 输出 一 系列 的 结果 ， 我 们 提取 其 中 的 Round n 这 样 的 行 ， 它 表明 了-g ondemandie M E ix XE HJondemand K 
略 相 对 于 performance 筑 略 的 性 能 比例 ， 假 设 信 为 : 


Round 1 - 39.74% 
Round 2 =- 36.352 
Round 3 - 47.91$ 
Round 4 = 54.227 
Round 5 - 58.64% 


XEADA, BUN CEI RNP GR aC Android Ht) 40 ERE, SPLIT 


Round 72.95% 


] - 
Round 2 = 87.20% 
Round 3 = 91.21% 
Round 4 - 94.10% 
Round 5 - 94.93% 


一 般 的 目标 是 在 采用 CPUFreq 动 态 调 整 频 鞭 和 电压 后 ， 性 能 应 该 为 performance 这 个 高 性 能 策略 下 的 
90% 左 右 ， 这 样 才 比较 理想 。 


19.2.4  CPUFreqJBi XII 


CPUFreq 子 系统 会 发 出 通知 的 情况 有 两 种 : CPUFreq 的 策略 变化 或 者 CPU 运行 频率 变化 。 
在 稼 略 变 化 的 过 程 中 ， 会 发 送 3 次 通知 : 


-CPUFREQ ADJUST: 所 有 注册 的 notifier 可 以 根据 硬件 或 者 光度 的 情况 去 修改 范围 《 即 policy->min 和 


policy->max) ; 


'CPUFREQ INCOMPATIBLE: 除非 前 面 的 案 略 设 定 可 能 会 寻 致 便 件 出 钳 ， 人 否则 被 注册 的 notifier 不 能 


改变 范围 等 议定 ; 
:CPUFREQ NOTIFY: 所 有 注册 的 notifier 都 会 被 告知 新 的 策略 已 经 被 设置 。 
在 频 计 变 化 的 过 程 中 ， 会 及 送 2 次 通知 : 
:CPUFREQ PRECHANGE: 准备 进行 频率 变更 ; 
:CPUFREQ POSTCHANGE: 已 经 完成 频率 变更 。 


notifier 中 的 第 3 个 参数 是 一 个 cpuffeq_freqs 的 结构 体 ， 包 舍 cpu (CPUS) 、old〈 过 去 的 频率 ) 和 


new (现在 的 频率 ) 这 3 个 成 员 。 发 送 CPUFREQ PRECHANGE 和 CPUFREQ POSTCHANGE 的 代码 如 下 : 


SeCu ROUTEeE Call chnaintscputreg transltroB notrrier las, 
CPUFREO PRECHANGE, freqs); 
SEO noLrirrler Call charc(scpurreq transition notrfrer List; 
CPUFREQ POSTCHANGE, Trege); 


如 果 某 模块 关心 CPUFREQ PRECHANGE 或 CPUFREQ POSTCHANGE 事 件 ， 可 简单 地 使 用 Linux 
notifier# Lil] 7a. 7n, drivers/video/sall00fb.cfE CPUAJI Z& AE LW FE mo B Er A ET TB AS V BRL. 此 
它 注册 了 notifier 并 在 CPUFREQ PRECHANGE#ICPUFREQ POSTCHANGE 情 况 下 分 别 进行 不 同 的 处 理 ， 
如 代码 清单 19.3 所 示 。 


代码 清单 19.3 CPUFreq notifier (il 


libi-cLreq ranci tion. Notiser call = sa2ll00rfD Treg Lransrztlong 
Zcpurredgq register noLtirier(soribrie- freq transition, CFUFREQ TRANSITION NOTIFIER); 
3 


isallLOUID freg transeitrion(sbtrucoctnotirier DLOOK “nb, unsigned. Long val, 
5void *data) 

6 { 

T eeruce sall00Lb Info Ibi = TO INP (nb; Treg LrISHsrtromn s 

o SELruct Oputreg Iregs ^L = cata; 


9 ü- Xntpod; 
10 
ll Switch (val) { 
do Case CPUFBEO PRECHANGE: 
L Ser CULE stave (tba, C- DISABLE CLROCHANGEJ} 
14 break; 


Lo case CPUFREO POSTCHANGE: 


16 ped: = Vet ped rDIi- ID.vabrlpixoelook, i--new) 7 


17 FOL reg Looro "(POL SEO eer se O |} seo Pixel epiy (ocd); 
18 Ser CLrlr stagte(rbri, C ENABLE CHRCHANGE); 

19 break; 

20 } 

2 Detur 07 

22. 


Cah, URE EU E/T ZY LE CPU SR REEL, WJCPUFreq T RAREZA I 
CPUFREQ SUSPENDCHANGE#ICPUFREQ RESUMECHANGE 这 两 个 通知 。 


值得 一 提 的 是 ， 除 了 CPU 以 外 ， 一 些 非 CPU 设 备 也 文 持 多 个 操作 频 京 和 电压 ， 和 存在 多 个 OPP。Linux 
3.2 之 后 的 内 核 也 支持 针对 这 种 非 CPU 设 备 的 DVFS， 该 套子 系统 为 Devfreq。 与 CPUFreg 存 在 一 个 
drivers/cpufreq 目 录 相 似 ， 在 内 核 中 也 存在 一 个 drivers/devfreq 的 目录 。 


19.3 CPUIdle 驱 动 


目前 的 ARM SoC 大 多 支持 几 个 不 同 的 Idle 级 别 ，CPUIdle 驱 动 子 系统 存在 的 目的 就 是 对 这 些 Idle 状 态 进 
行 管理 ， 并 根据 系统 的 运行 情况 进入 不 同 的 Idle 级 别 。 有 具体 SoC 的 底层 CPUIdle 驱 动 实现 则 提供 一 个 类 似 于 
CPUFreq 豫 动 频 率 表 的 Idle 级 别 表 ， 并 实现 各 种 不 同 Idle 状 态 的 进入 和 退出 流程 。 


对 于 Intel 系 列 笔记 本 计算 机 而 言 ， 支 持 ACPI (Advanced Configuration and Power Interface， 高 级 配置 和 
电源 接口 ) ， 一 般 有 4 个 不 同 的 C 状 态 《〈 其 中 C0 为 操作 状态 ，C1 是 Halt 状 态 ，C2 是 Stop-Clock 状 态 ，C3 是 
Sleep 状态 ) ， 如 表 19.3 所 示 。 


4219.3 4 个 不 同 的 C 状 态 


= iE os) 


mX FARMA. fT SoCXI T Idle) Sc 8i 7j TE28 HK, Bete RJ Idle A IT CPU ET 
WEI (Sf PTAC) RS, HEES P. ZISoCARSSHLE Er BO Hr ZECPUIdledK2/], — WI EA 
cpu do idle O ， 对 于 ARM V7 而 言 ， 其 实现 位 于 arch/arm/mm/proc-v7.S 中 : 


ENTRY(cpu v7 do idle) 


dsb Q WFI may enter a low-power mode 
wfi 


mov peu Le 
ENDPROC(cpu v7 do idle) 


与 CPUFreq 类 似 ，CPUIdle 的 核心 层 提 供 了 如 下 API 以 用 于 注册 一 个 cpuidle_driver 的 实例 : 
IMECOULOLe TOOLSLOF OfIver(sLrucLt ocpuldle driver "drv; 
并 提供 了 如 下 API 来 注册 一 个 cpuidle device: 


hive. CpuLdLe. register .device(struce Cpourcgle device ~dey), 


CPUIdle 张 动 必 须 针 对 每 个 CPU 注册 相应 的 cpuidle device， 这 意味 着 对 于 多 核 CPU 而 言 ， 需 要 针对 每 
个 CPU 注册 一 次 。 


cpuidle register driver () 接 党 1 个 cpuidle_driver 结 构 体 的 指针 参数 ， 充 结构 体 是 CPUIdle 张 动 的 主体 ， 
其 定义 如 代码 清单 19.4 所 示 。 


代码 清单 19.4 cpuidle driver 结 构 体 


Struct. ecepusdle driver i 
2 const char *name; 


3 struct module *owner; 

4 

5 unsigned int power specified:1; 

6 /* set to 1 to use the core cpuidle time keeping (for all states). */ 
7 unsigned int en core Tk Igeni; 

8 


SLIUCL CDUIOLe srace States |CPUIDLE STATE MAXI 
9 Tt State count; 

l0 int safe state Index 

11]; 


YEE MM SER El cpuidle state 的 表 ， 其 实 该 表 就 是 用 于 存储 各 种 不 同 Idle 级 别 的 信息 ， 它 的 
定义 如 代码 清早 19.5 所 示 。 


代码 清单 19.$ cpuidle state 结 构 体 


LStruct ocpardle Stace 4 


2 char name[CPUIDLE NAME LEN]; 

3 Chardesc(CPUIDLE DESC DEN]; 

4 

5 unsigned int flags; 

6 unsigned intexit latency; /* in US */ 

7 int power usage; /* in mW */ 

8 unsigned inttarget residency; /* in US */ 

9 bool disabled; /* disabled on all CPUs */ 
10 
11 int (*enter) (Struct. courdle. device “dey, 
12 SEruce Cpuidie driver “div, 
13 int index); 
14 
l5 ant (enter dead) (Struct Cpuldle device dev, TNE zndex); 
16}; 


Vv) 


name 和 desc 是 该 Idle 状 态 的 名 称 和 描述 ，exit latency 是 退出 该 Idle 状 态 需 要 的 延迟 ，enter O 是 进入 该 
Idle 状 态 的 实现 方法 。 


忽略 细节 ， 一 个 具体 的 SoC 的 CPUIdle 驱 动 实例 可 见于 arch/arm/mach-ux500/cpuidle.c( 最 新 的 内 核 已 经 
将 代码 转移 到 了 drivers/cpuidle/cpuidle-ux500.c 中 ) ， 它 有 两 个 Idle 级 别 ， 即 WFI 和 ApIdle， 其 其 体 实现 框架 
如 代码 清单 19.6 所 示 。 


代码 清单 19.6 ”ux500CPUIdle 驱 动 案例 


lSrtaticatomnioc t master = ATOMIC INLT(0); 
ASt atric DEFINE SPINLOCK(master lock); 
2sSbdgtrzo DEFINE PER CPUTStruct ocpuidle device; uxo00 cpuridle device); 


4 
optare aniline nt Uxo00 enter adle(e rice colidie device *dev, 
6 Structopuldie Graver “div, amc index) 
7 { 
SENT 
9 } 
10 
lilstatrostruct opurdLe driver uxo00 adie driver = { 
12 sname = "uxo00 Idle”; 
13 .owner = THIS MODULE, 
14 en core tk Irge = l; 
15 .states = { 
16 ARM CPUIDLE WFI STATE, 
IN ( 
18 .enter = UxoUU enter Idie; 
19 “exit latency = 70; 
20 target residency e 260; 
21 .flags = CPUIDLE FLAG TIME VALID, 
A2 . name = "ApIdle", 
23 .desc — "ARM Retention", 
24 by 
Zo Jy 


20 Sure stare index = 0, 


Zt «Stace: COUML. = 2; 


e OPES 
31 * For each cpu, setup the broadcast timer because we will 
32 * need to migrate the timers for the states »- ApIdle. 


So SUE 

34static void ux500 setup broadcast timer(void *arg) 
2D 

20. dntopu = Sip: processor 1d)? 

37 clockevents notify(CLOCK EVT NOTIFY BROADCAST ON, &cpu); 
38] 

39 

40int | init ux500 idle init (void) 

41{ 

42 . 

do ret = opuxdie register driver (cuxo0U odie driver); 
44 .. 

45 for each online cpu(cpu) { 

46 device = &per ocpu(ux500 cpurdle device, cpu); 
4] device->cpu = cpu; 

48 Der = Oun Le ~seqiscer device (device); 

49 

50 } 

Dd y 

52} 


oodevice 1niteallduxoU0O Ladle TO 


与 CPUFreq 类 似 ， 在 CPUIdle 子 系统 中 也 有 对 应 的 governor 来 抉择 何 时 进入 何 种 Idle 级 别 的 策略 ， 这 些 
governor 包 括 CPU IDLE GOV LADDER, CPU IDLE GOV MENU。LADDER 在 进入 和 退出 Idle 级 别 的 时 
候 是 步 进 的 ， 它 以 过 去 的 Idle 时 间作 为 参考 ， 而 MENU 总 是 根据 预期 的 空 闪 时间 直接 进入 目标 Idle 级 别 。 前 
者 适用 于 没有 采用 动态 时 间 节 拍 的 系统 ( 即 没 有 选择 NO_HZ 的 系统 ) ， 不 依赖 于 NO_HZ 配 置 选 项 ， 而 后 
a HORT ARK ENO HZ tit. 


图 19.3 演 示 了 LADDER 步 进 从 C0 进 入 C3， 而 MENU 则 可 能 直接 从 C0 跳 入 C3 。 


an A dà d 
( co |—» ci > C » C3 
Wu F Oo ww 
4h m Am dm 
( co ) (oi) [ c? | C 


图 19.3 LADDER 与 MENU 的 区 别 
CPUIdle 子 系统 还 通过 sys 加 userspace 导 出 了 一 些 节 点 : 


一 类 是 针对 整个 系统 的 /sys/devices/systemycpu/cpuidle， 通 过 其 中 的 current driver. current governor. 


available governors 13 a AY UIRA Sk ix ELCPUIdlel] JI 2/4 Ie. UA € governor. 


一 类 是 针对 每 个 CPU 的 /sys/devices/systemycpucpux/cpuidle， 通 过 子 节点 暴露 各 个 在 线 的 CPU 中 每 个 不 


间 Idle 级 列 的 name、desc、power、latency 等 信息 。 


综合 以 上 的 各 个 要 素 ， 可 以 给 出 Linux CPUIdle 子 系统 的 总 体 架 构 ， 如 图 19.4 所 示 。 





LADDER 
CPUIdlet% 

acpi-cupidle SoC 级 别 

i n cpuidle 















ARM 级 别 
cpu do idle 


图 19.4 Linux CPUIdle 子 系统 的 整体 架构 


19.4 Powerlop 


PowerTop 是 一 款 开 源 的 用 于 进行 电量 消耗 分 析 和 电源 管理 诊断 的 工具 ， 其 主页 位 于 Intel 开 源 技术 中 心 
的 https://01.org/powertop/， 维 护 者 是 Arjan van de Ven 和 Kristen Accardi。PowerTop 可 分 析 系 统 中 软件 的 功 
耗 ， 以 便 找 到 功 耗 大 户 ， 也 可 显示 系统 中 不 同 的 C 状 态 〈 与 CPUIdle 张 动 对 应 ) FUPTRAS CHECPUFreqJE JJ 
对 应 ) 的 时 间 比 例 ， 并 采用 了 基于 TAB 的 界面 风格 ， 如 图 19.$ 所 示 。 


[dle stats Tunables 


Overview 


The battery reports a discharge rate of 14.3 W 


Frequency stats — Device stats 


The estimated remaining tine is 93 minutes 


Summary: 165.5 wakeups/second, 


Usage 
100,05 
1900. 

,OQ ms/s 


2 


08 
05 


.2 ms/s 
.9 ms/s 


Hus/s 
s/s 
ms/s 
us/s 
HS/S 
s/s 
s/s 
ms/s 
s/s 
us/s 


PNYINYENOUUES 


Events/s 


59. 


NJ 
AO 
- UJ 


C M RN)U nuno Ow 0 
C P B» Un Ug CD Un GJ C OO 


Category 
Device 
Device 
Interrupt 
Device 
Device 
Process 
Process 
Device 
Interrupt 
Interrupt 
Process 
Interrupt 
Process 
Process 
Interrupt 
Process 
kWork 
Interrupt 


0.0 GPU ops/second, 6.0 VFS ops/sec and 4.1% CPU use 


Description 

Display backlight 

USB device: USB Optical Mouse 
PS/2 Touchpad / Keyboard / Mouse 
Audio codec hwCOD3: Intel 

Audio codec hwCODO: Realtek 
/usr/bin/Xorg :0 -background none 
xfce4-screensho 

USB device: AX8B772 

[7] sched(soflirgq) 

[41] 1915 

/usr/bin/Terminal 

[23] ehci_hcd usb2 

iscsid 

xfwa4 --display :0.0 --sm-cllent- 
[6] tasklet(softirg) 

xfdesktop --display :9.0 --sm-cli 
console callback 

[1] timer({softira) 





多 19.$ PowerTOP 


19.5 Regulator Kz) 


Reegulator 是 Linux 系 统 中 电源 管理 的 基础 设施 之 一 ， 用 于 稳 压 电源 的 管理 ， 是 各 种 驱动 子 系统 中 设置 
电压 的 标准 接口 。 表 面 介绍 的 CPUFreq 驱 动 束 经 党 使 用 它 来 设 定 电 压 ， 比 如 代码 清早 19.2 的 第 57~59 行 。 


而 Regulator 则 可 以 管理 系统 中 的 供电 间 元 ， 即 稳 压 项 〈Low Dropout Regulator，LDO， 即 低压 锋线 性 
Kaas) ， 并 提供 获取 和 设置 这 些 供电 单元 电压 的 接口 。 一 般 在 ARM 电 路 板 上 ， 各 个 稳 压 闫 和 设备 会 形 
成 一 个 Regulator 树 形 结构 ， 如 图 19.6 所 示 。 


Linux 的 Regulator 子 系统 提供 如 下 API 以 用 于 注册 / 广 销 一 个 稳 压 大 : 


structregulgtor dev s regulator regrister(coHststructregulator desc 
“regulator desc, OODSLSLrucLregulqgvLor Cong *"OODELg) 
vordreguladaror unreolster(structregulator dev *r1dev); 


regulator register O 函数 的 两 个 参数 分 别 是 regulator desc 结 构 体 和 regulator config 结 构 体 的 指针 。 


; UR | 4 lii fF Regulatorl hb a.d li fF Regulator2 b 
( Power Supply) < E D> 十 » 
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图 19.6 ”Reegulator 树 形 结 构 
regulator desc 结 构 体 是 对 这 个 稳 压 需 属 性 和 操作 的 封 匡 ， 如 代码 清单 19.7 所 示 。 


代码 清单 19.7 regulator desc 结 构 体 


LSLruoct regülaror desc. 1 





2 const char *name; /* Regulator 的 名 字 */ 

3 const Char *supply name; /* Regulator Supplylijz */ 

4 rnb 05 

5 unsigned n voltages; 

6 SLPUOCL POguiatof Ope “Ops, 

] int irg; 

8 enum regulator type type; /* 是 电压 还 是 电流 RegqulatoOr */ 

9 struct module *owner; 

10 

11 unsigned int min uV; /* 在 线性 映射 情况 下 最 低 的 Selector 的 电压 */ 
12 unsigned int uv step; /* 在 线性 映射 情况 下 每 步 增加 / 减 小 的 电压 * / 
13 unsigned int ramp delay; /* 电压 改变 后 稳定 下 来 所 需 时 间 */ 

14 

ils const unsigned int *volt table; /* 基于 表 映 射 情况 下 的 电压 映射 表 */ 

16 

17 unsigned int vsel reg; 

18 unsigned int vsel mask; 

s unsigned ant enable- regj 
20 unsigned int enable mask; 
Z1 Unsigned nt bypass reg; 


22 unsigned int bypass mask; 


23 
24 
Lops 


上 述 结构 体 中 的 regulator opsts£fops xe XT Xx] fe He as HE PE BRE a I, ZEA, 


AMT PRB 


代码 清单 19.8 


leSTruct 


unsigned int enable time; 


ü fV hdi 5.19.8 ATA 
regulator ops 结 构 体 


regulator ops 1 
/* enumerate supported voltages */ 
int. (FLL voltage) 


/* get/set regulator voltage */ 
int (*set voltage) 
unsigned *selector); 


(SLPUCL Pegularvor dev ^. Umsi9gned Selector); 


(struct regulator dev. *, int min uv, ant max uv, 


unsigned selector); 


int ("map voltage) (Struct regulator dev * Int min UV, int max uv); 
IAC (seu volvage sel) (struce regulator dev *, 

int. (“el VOoLLage) (struce Tegula lor dey *); 

int (“get voltage sel) (Struct regulator dev. 5); 


]|* get/set regulator Current *y 
Loe ("See Currenc Int) 

int min uA, int max uA); 
int. (get Current Lint) 


/* enable/disable regulator */ 

int. (enable) (struce reguldtor dey *)7 

int. (*disable) (strucce regulator dev *); 
Int. ("e enabled) (struct regulator dey Ww) 


(SETUCe regulator dev 7, 


SC regulator dev *)7 


A> sth 
ri aK 


BU. WHA Hs SA) 


fEdrivers/regulator H3& F, LG RWS Fa oes Ho DA Regulator3Xa), WüDialogljDA9052. Intersil 
的 ISL6271A、STEricsson 的 TPS61050/61052、Wolfon 的 WM831x 系 列 等 ， 它 同时 提供 了 一 个 虚拟 的 
Regulator 驶 动作 为 参考 ， 如 代码 清单 19.9 所 示 。 


代码 清单 19.9 ”虚拟 的 Regulator 驱 动 


lercruct 
2Z2static 
3static 
4static 


10}; 
ll 
12static 
Lo 
14 
ike 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
2 
28} 


regulator dev "dummy regulator rdev; 
SLruct regulLdtor init data dummy anictdaca; 
struct regulator ops dummy ops; 

SLFUOCLC regulator Cesc dummy desc = 1 

.nanme = "regulator-dummy", 

Ae. = =l; 


.type = REGULATOR VOLTAGE, 
owner = THIS MODULE, 


-ops = &dummy ops, 
int | devinit dummy regulator probe(struct platform device *pdev) 
Struce regulator Contig OcOnbrg = T J3 


int ret; 


config.dev = &pdev->dev; 
contig.init. data = &dummy u1nitdata; 


dummy regulator rdev = regulator register (<dummy desc, &config); 


if (IS ERR(dummy regulator rdev)) { 
ret = PTR ERR(dummy regulator rdev); 
prt erri" balled LO Xegrsbter regulator: 
rerurn Ket; 


} 


return Ds 


od" 7, EL); 


Linux 的 Resulator 子 系统 捉 供 请 费 者 (Consumer) API 以 便 让 其 他 的 驱动 获取 、 设 置 、 关 闭 和 使 能 稳 压 


Surucrregulavor “ regulator get(sbEuctdevrce- *dev, ‘Const Ghar *10)7 
scrPucbregulator- * devil regulator Geuleuructdevyice “dev, -conse char xd 
Serao regu lalor a regulator ger sxcluszwetstrucbtdevlice “dey; Const. Char Sed 
VOIlcregulgtor c-put(sotrüucLtreogulator *reguldquor); 

vosddevm regulator pus(structregulator *regulator); 

rIntregulator enabletstructregulator *regulgtor); 

Lntregulator deseble(surüc5tregulstorc "eeguladtor). 
iIntregulator seu volLage[structregulator regulators- Untm uVvVg Antmax uv) 
:nbregulstor-get volrtageistrucbtregulator *regulacor); 


jS TH Bt xr APIS SCE GPIOT z2HJgpio request O 、 时 钟 子 系统 的 clk get ©) ~ dmaengine 
子 系统 的 dmaengine submit O 等 相当 ， 属 于 基础 设施 。 


19.0 OPP 


现今 的 SoC 一 般 包 含 很 多 集成 组 件 ， 在 系统 运行 过 程 中 ， 并 不 需要 所 有 的 模块 部 运行 于 最 局 频 京 和 最 
局 性 能 。 在 SoC 内 ， 茶 些 domain 可 以 运行 在 较 低 的 频率 和 电压 下 ， 而 其 他 domain 可 以 运行 在 较 和 高 的 频 京 和 
电压 下 ， 某 个 domain 所 文 持 的 < 频 京 ， 电 奈 > 对 的 集合 被 称 为 Operating Performance Point, 45 OPP. 


int Opp edd(struct device *dev, unsigned long freg; unsigned long u volt; 


H Bi, TI OMAP CPUFreq 驱 动 的 底层 就 使 用 了 OPP 这 种 机 制 来 获取 CPU 所 支持 的 频率 和 电压 列表 。 在 
开机 的 过 程 中 ，TIOMAP4 心 户 会 注册 针对 CPU 议 备 的 OPP 表 【代码 位 于 arch/arm/mach-omap2/ 中 ) ， 如 代 
但 清单 19.10 所 示 。 


代码 清单 19.10 TI OMAP4 CPU 的 OPP 表 


lstatie struct omap opp der rnitdata omap44xx opp def list[] = 1 

Z /* MPU OPP1 - OPP50 */ 

3 OPP INITIALIZER("mpu", true, 300000000, OMAP4430 VDD MPU OPP50 UV), 

4 /* MPU OPP2 - OPP100 */ 

5 OPP INITIALIZER("mpu", true, 600000000, OMAP4430 VDD MPU OPP100 UV), 

6 /* MPU OPPS = OPP=Turoo *7 

7 OPP INITIALIZER("mpu", true, 800000000, OMAP4430 VDD MPU OPPTURBO UV), 
8 /* MPU OPP4 - OPP-SB */ 

9 OPP INITIALIZER("mpu", true, 1008000000, OMAP4430 VDD MPU OPPNITRO UV), 


12/7 ** 

13 * omap4 opp init() - initialize omap4 opp table 
14 */ 

15int init omap4 opp init (void) 


Le r = omap init opp table(omap44xx opp def list, 
19 ARRAY SIZE (omap44xx opp def list)); 


2 return. $7 

22] 

Z20eCV LCS. 2nitcalltomap4 ODD. init); 

Z4lnc. aurc Omap nit opp table(struct omap opp det *opp det, 


2 uo2 Opp def size) 

2.61 

2l m 

28 /* Lets now register with OPP library */ 

20 Lor (n = U; dc Opp. Gel sizer 13949. Opp Ceri.) 4 

30 = 

31 if (!strncmp (opp def-»hwmod name, "mpu", 3)) | 

32 "a 

mo * All current OMAPs share voltage rail and 
34 * clock source, so CPUO is used to represent 
o * The MPU-SSs 

36 ^r 

3J dev = ger Cou device (0); 

38 NT 

29 p = Opp addidev, ODDp-der- Lreg, Opp Uer- cu volt); 
40 

41 ) 

42 return 0; 

43) 


针对 与 device 结 构 体 指针 dev 对 应 的 domain 中 增加 一 个 新 的 OPP， 参 数 ffeq 和 u volti] AiZOPPX NZ HJ 29 
率 和 电压 。 


Inc. Opp enable(struct device “dey, unsigned Long freq); 


Ilt OppwusapDleqsUruct device dev, unsvoned long Zreg)4 


上 述 API 用 于 使 能 和 禁止 某 个 OPP， 一 旦 被 禁止 ， 其 available 将 成 为 false， 之 后 有 设备 驱动 想 设置 为 这 
个 OPP 残 不 再 可 能 了 。 臂 如， 当 识 度 超过 未 个 范围 后 ， 系 统 不 允许 1GHz 的 工作 频率 ， 可 采用 类 似 下 面 的 
代码 实现 : 


LE OM  Geme > tenp hgh: CHIreSn) 1 
/* Disable 1GHz if it was enabled */ 
rou. read lockí); 
Opp. = Opp- Lind: Bred. exace (dev; 1000000000). LEE), 
rou Tedd UnLock) 
[5 wet Error check, +7 
pt (MIS BERR(ODDP)) 
ret = opp disable (dev, 2000000000); 
else 
SOLO try cOme hing else; 


} 


上 述 代码 中 调用 的 opp_find freq exact O 用 于 寻找 与 一 个 硝 定 频 雍 和 available 匹 配 的 OPP， 其 原型 
为 : 


Se “Opp LN reg exacbisLrucb dewrce *gdgdev. unsigned ono red; 
bool available); 


另外 ，Linux 还 提供 两 个 变 体 ，opp find freq floor O 用 于 寻找 1 个 OPP， 它 的 频率 同上 接近 或 等 于 指 
定 的 频率 ; opp find freq ceil © 用 于 寻找 1 个 OPP， 它 的 频率 同 下 接近 或 等 于 指定 的 频率 ， 这 两 个 函数 的 
原型 为 : 


Struct- opp-*opp. tind: treq LLOOP(SLPDCL ee 
Struc’ Opp “op. Lrnd freq Cerl(srriuer device. eg 


我 们 可 用 下 面 的 代码 分 别 寻 找 1 个 设备 的 最 大 和 最 小 工作 频率 : 


freq = ULONG- MAX; 

peu. reac: Lock); 

opp find freq tloor(dev; Gired); 
feu rego -unlock 

treg = 0j 

fou redo LOCK); 

Opp: bund. freq ocezxlidev, cireq) 
ECU. Tead UNIOCK() 4 


在 频率 降低 的 同时 ， 支 撑 该 频率 运行 所 需 的 电压 也 往往 可 以 动态 调 低 ， 反 之 ， 则 可 能 需要 调 高 ， 下 面 
这 两 个 API 分 别 用 于 获取 与 菜 OPP 对 应 的 电压 和 频率 : 


unsigned: Jong Opp get Vvoleage (struct Opp ^OPP) 
Unsigned, ong opp-get .treq (struct: OPE Opp); 


28S IT, AXXCPUFreqUE 5] A CPU Ae SAEI], EA BÉ TREN CELERE, FOE RUE 
7j: 


SOC SWI CON UO. 68g Voltage. (Ered) 


[* do things *7 
POSU read Lock); 
Opp = opp Tind freq ceil(dev, &freg); 
wv = Opp get. voltage (opp) 7 
rou. read Unlock (); 
if (v) 
POJgUIMLOT Set Voltage (sry Viz 
j* udo Other Chinga */ 


如 下 简单 的 API 可 用 于 获取 人 条 设备 所 支持 的 OPP 的 个 数 : 


int OPP get Opp: Count (Struce device *gev); 


HU se 2, TI OMAP CPUFreq kay E JI E a EFA S OPPIX FEAL HOR SR AL CPUPI Sc SE HY a 8 A FB Hs A 
Ko ‘EfEomap_init opp table () RACHA USI SAADVAYOPP, ETI OMAP H HYCPUFreq kay 
drivers/cpufreq/omap-cpufreq.c 中 ， 则 借助 了 快捷 函数 opp init cpufreq table () 来 根据 前 面 注册 的 OPP 建 立 
CPUFreq 的 频率 表 : 


Statie EC 


{ 


tf (tire ta lS) 
result = Opp. init cpubLreq table(mpu dev, &rreg table); 


IM ZECPUFreg JK H Er EX, vi EE Ztomap. target ©) 中 ， 则 使 用 与 OPP 相 关 的 API 来 获取 频 深 和 电压 : 


gta Lut omap target(struecb cpurreg policy *polley, 
ünsrgned int target cred, 
unsigned int relation) 


{ 


LI (mpu reg) 4 
opp = opp find freq ceil(mpu dev, &freq); 


volt = Opp gel volctage(topp); 


} 


drivers/cpufreq/omap-cpufreq.c 相 对 来 说 较为 规 和 拖 ， 它 在 < 频率 ， 电 压 > 表 方面 ， 在 搬 层 使 用 了 7 了 OPP， 在 
设置 电压 的 时 候 义 使 用 了 规范 的 Regulator API. 


比较 新 的 驱动 一 般 不 太 乾 欢 和 直接 在 代码 里 面 固 化 OPP 表 ， 而 是 喜欢 在 相应 的 和 点 处 这 加 operating- 
points 属 性， 如 imx27.dtsi 中 的 : 


cous’ d 
#Size-cells = «0»; 
faddress-cells = «1»; 
cpu: cpuado 4 
device type = "Opa"; 
compatible - "arm,arm926ej-s"; 
operating-points = < 
|^ Kaz uy *7 
266000 1300000 
399000 1450000 


clock-latency = «062500»; 
Clocks = "<¢elks IMX2Z7 Chik CPU DIVe; 
voltage-tolerance = <5>; 
); 
); 


如 果 CPUFreq 的 变化 可 以 使 用 非常 标准 的 regulator、clk API， 我 们 甚至 可 以 直接 使 用 
drivers/cpufreq/cpufreq-dt.c 这 个 驱动 。 这 样 只 需要 在 CPU 节 点 上 填充 好 频率 电压 表 ， 然 后 在 平台 代码 里 面 注 
有 册 cpufreq-dt 设 备 就 可 以 了 ， 在 arch/arm/mach-imx/imx27-dt.c、arch/arn/mach-imx/mach-imx51.c 中 可 以 找到 类 
似 的 例子 : 

static void — init imx27 dt init (void) 
———Mc— 2s 


of platform populate (NULL, of default bus match table, NULL, NULL); 
platform device. register full (<devinid); 


19.7 PM QoS 


Linux 内 核 的 PM ee AE AN , aoe SRO, APA E A aX 
性 能 的 期 性 。 一 类 是 系统 级 的 需求 ， 通 过 cpu dma latency. network latency 和 network throughput 这 些 参数 
KRE: 男 一 类 是 里 个 设备 可 以 根据 目 映 的 性 能 需求 友 起 per-deviceH 只 PM QoS 请 求 。 


在 内 核 空 间 ， 退 过 pm qos add request © rZ nu] LATE PM QoS 请 求 : 


void pm qos add request(stbPuct pm Gos request Treg; 
LMG. pm- qos. Class, S992 value); 


通过 pm qos update request © PAZ n] DE er OEA RPM QoS 请 求 : 


void pm dos update request (Struct pu gos request. Frag; 

s32 new value); 
void pm qos update request timeout(struct pm qos request *req, s32 new value, 
unsigned long timeout us); 


通过 pm qos remove request () 函数 可 以 删除 已 注册 的 PM QoS 请 求 : 


void pm qos remove request(struct pm qos request *req); 


2° I TE drivers/media/platform/via-camera.c3X ^P T EK, HRALA Je Jer wwe P8) ay VARA 
止 CPU 进入 C3 级 别 的 深度 Idle: 


Se 了 me 


{ 


pm qos add request(scam--qos request, PM QOS CPU DMA. LATENCY; 50); 


这 是 因为 ， 在 CPUIdle 子 系统 中 ， 会 根据 PM_QOS_CPU_DMA LATENCY 请 求 的 情况 选择 合适 的 C 状 
态 ， 如 drivers/cpuidle/governors/ladderc 中 的 ladder select state O 融会 判断 目标 C 状 态 的 exit latency 与 QoS 
要 求 的 关系， 如 代码 清早 19.11 所 未 。 


代码 清单 19.11 CPUIdle LADDER governor 对 QoS 的 判断 


statue Inc ladder Select SUSLETSCEIUCL courdle driver “dry, 


2 o ruc opurdabe device *dev) 

2u 

4 T 

5 int latency req - pm qos request(PM QOS CPU DMA LATENCY); 
6 

7 

8 

9 j/* Consider promotion *y 
10 ie (last idx < drve^state count = Ls 
1l |drveosrdtesLlagt ads + Lh«disabled && 
由 二 |deve states usage[last dx + 1) .diseble && 
1:3 last residency > last state--thresnhnold.promotion Cime- Re 


14 drveosstatesllast azdx a Ll.exitc latency <= Lacteney req) | 


| last Sate SLRLSDDONOLLIOD COUNTE? 


16 last SUSLOesScSLaLs.denoLion count = 97 

UM IL(LAaSt Scave=-srace.promorion Count 

18 last State->chresnold, Promo ion count) 1 

19 ladder do selection(ldey, last idx; Jase. idx w 1); 
20 return last Idk F |} 

21 } 

22 ) 

23 

24} 


LADDER 在 选择 是 任 进 入 更 深层 次 的 C 状 态 时 ， 会 比较 C 状 态 的 exit_latency 要 小 于 通过 
pm qos request (PM QOS CPU DMA LATENCY) 得 到 的 PM QoS 请 求 的 延迟 ， 见 代码 清单 19.11 的 第 14 


行 。 
同样 的 逻辑 也 出 现 于 drivers/cpuidle/governors/menu.c 中 ， 如 代码 清单 19.12 的 第 18~19 行 。 


代码 清单 19.12 CPUIdle MENU governor 对 QoS 的 判断 


locatio int menu select (struct opuldle driver “div, Struct, opuldle doyle *dev) 


24 

3 SLruct Menu device *daLa = & gel cpu var(ümenu devices); 

4 int latency req - pm qos request(PM QOS CPU DMA LATENCY); 

5 a 

6 "s 

J * Find the idle state with the lowest power while satisfying 
8 * Our Constraints: 

9 y 

10 for (i = CPUIDLE DRIVER STATE START; i « drv->state count; i++) { 
LI SULUCe CDuxdle gLale ~o = edrv- sbpatesrrls 

12 SGLruoct Opuldle Stave. Usage Su = .Sdev-csbates Usageli i; 
1.3 

14 if (s->disabled || su->disable) 

1:5 continue; 

26 LÍ See residency  Odta-predrctedo us) 

uU continue; 

18 LE ( Seen latency > latency reg) 

11 continue; 
20 ll (S--6xit latency * multiplier > data=- predicted us) 
21 continue; 
PA 
2. if (s->power usage < power usage) { 
24 power usage = s-»power usage; 
Za datge- last Suace: IR = 1} 
26 data-^cexlt us = S-cexrit latency; 
2 ) 
28 ) 
29 

aU return dara-slast.SLrace Idx? 

31} 


还 是 回 到 drivers/media/platformy/via-camera.c 中 ， 当 摄像 头 天 财 后 ， 它 会 通过 如 下 语句 和 宕 知 上 述 代 但 对 
PM QOS CPU DMA LATENCY 的 性 能 要 求 取消 : 


static imt vlacam streamon(struct file *filp, void *priv, enum v4l12 buf type t) 


{ 


Di dos remove request(isocam- qos tequestl); 


FAVA A TE Vt e DI] FP FH E QoS ELE HY I T 245 GL diidrivers/net/wireless/ipw2x00/1pw2 1 00.c. 


drivers/tty/serial/omap-serial.c. drivers/net/ethernet/intel/el 000e/netdev.c=# « 


应 用 程序 则 可 以 通过 同 /dewcpu dma latency 和 /dev/network latency 这 样 的 设备 节点 写 入 值 来 发 起 QoS 的 
性 能 请 求 。 


19.8 ”CPU 热 插 拔 


Linux CPU 热 插 拔 的 功能 已 经 存在 相当 长 的 时 间 了 ，Linux 3.8 之 后 的 内 核 里 一 个 小 小 的 改进 束 是 CPU0 
也 可 以 热 插 拔 。 


一 般 来 讲 ， 在 用 户 空 间 可 以 通过 /sys/devices/system/cpu/cpun/online 市 点 来 操作 一 个 CPU 的 在 线 和 次 


线 : 

# echo 0»5/sys/devices/system/cpu/cpu3/online 

CPU 3 is now offline 

# echol >/sys/devices/system/cpu/cpu3/online 

通过 echo0>/sys/devices/systemycpu/cpu3/online 关 团 CPU3 的 时 候 ，CPU3 上 的 进程 都 会 被 迁移 到 其 他 的 

CPU 上 ， 以 保证 这 个 拔除 CPU3 的 过 程 中 ， 系 统 仍然 能 正 利 运行 。 一 旦 通过 echo 
1>/sys/devices/Systemycpucpu3/online 再 次 开 司 CPU3，CPU3 又 可 以 参与 系统 的 负载 均衡 ， 分 担 系 统 中 的 任 
务 。 


在 验 入 式 系 统 中 ，CPU 热 插 拔 可 以 作为 一 种 省 电 的 方式 ， 在 系统 负载 小 的 时 候 ， 动 态 天 闭 CPU， 在 系 
统 负 载 增 大 的 时 候 ， 再 开局 之 前 离线 的 CPU。 有 目前 各 个 必 片 公司 可 能 会 根据 上 自身 SoC 的 特点 ， 对 内 核 进行 
， 来 实现 运行 时 “ 热 插 撤 ”。 这 里 以 Nvidia 的 Tegra3 为 例 进 行 说 明 。 


Tegra3 玉 用 vSMP CvariableSymmetric Multiprocessing) 32%, 46 5^ Cortex-A9Ab 3E as, FLAS Ay 
性 能 设计 的 G 核 ，1 个 为 低 功 耗 设计 的 LP 核 ， 如 图 19.7 所 示 。 


Core 1 


Core 3 Core 4 





图 19.7 Tegra3 Hy) AR TJ 


在 系统 运行 过 程 中 ，Tegra3 的 Linux 内 核 会 根据 CPU 负载 切换 低 功 耗 处 理 器 和 高 功 耗 处 理 器 。 除 此 之 
外 ，4 个 高 性 能 ARM 核 心 也 会 根据 运行 情况 ， 动 态 借 用 Linux 内 核 文 持 的 CPU 热 插 拔 进 行 CPU 的 插入 / 拔 出 


用 华硕 EeePad 运 行 遍 负载 、 低 负载 应 用 ， 通 过 dmesg 谷 看 内 核 消 息 也 硝 实 验证 了 多 核 的 热 插 拔 以 及 G 
核 和 LP 核 之 间 的 动态 切换 : 


104626.426957 
1O0dOo2T 4271412 
104627.427670 
1046239393/0053 
LU 4 620 33/01 


«4» 
</> 
<4> 
<4> 
<4> 


[ ] CPU1: Booted secondary processor 
[ ] tegra CPU; force EDP limit 720000 kHz 
[ ] CPU2: Booted secondary processor 
[ ] stop machine cpu stop cpu=0 
[ | Stop machine cpu. stop <cpu=2 
<4> [1046200270591 Stop Machine cpu SLOP epus 
«4»[104628.537702] | stop cpus: wait for completion timeoutt 
S47 [1046028.59/050] . SLOp Cous: sempe). done.executed-l done.ret eU- 
<5>[104628.537960] CPU1: clean shutdown 
<d> 11046302.53/092). ‘Stop machine cpu stop opus 
«4»[1046530.,5537172] ‘stop machine cpu stop cpu-2 
SeIDLLOS6230.,59 399] . Stop cpus: wait ror completion timeout 
<4>[104630.538060] Stop CPUS: Smp-9 ‘done. exeCcuved=1 done.ret 0= 
<5>[104630.538203] CPU2: clean shutdown 
[ ] tegra watchdog touch 


<4> L1904031,300904 


高 性 能 处 理 嚣 和 低 功 耗 处 理 器 切换 : 


LoF L04066: 199152] LP=>Gs ProLloy 22 Us, switch 2129 us, GODLIlog 24 u$, total 2175 us 


[ ] 
€&ac—[104667.,95D7273] -G=>LP?. prolog 18 us, switch 157 us, epilog 25 us, total 200 us 
«4»[104671.407008] tegra watchdog touch 
«4»[104671.408816] nct1008 get temp: ret temp=35C 
<39> [10460719390600] LP-»G: prolog 17 us, switch 2127 us, epilogo 22 us, total 2160 us 
[ ] 


«435[104072.939091] G=>LP:; prolog 18 us, switch 156 us, &pilog 24 us, total 1909 us 


在 运行 过 程 中 ， 我 们 发 现 4 个 G 核 会 动态 热 插 拔 ， 而 4 个 G 核 和 1 个 LP 核 之 间 ， 会 根据 运行 负载 进行 集 
群 切 的 。 这 一 部 分 都 是 在 内 核 里 面 实现 的 ， 和 tegra 的 CPUF req 驱 动 CDVFSUIKz/). ARR. FART n] 
WT http://nv-tegra.nvidia.com/gitweb/?p-linux-2.6.git;a-tree;f-arch/arm/mach-tegra;h-e5d1 ff2;hb-rel-14r7 


1. 如 何 判 新 目 己 征 什么 核 


每 个 核 都 可 以 通过 调用 is Ip cluster C) 来 判断 当前 正在 执行 的 CPU 是 LP 还 是 G 处 理 右 


Static inline unsigned anc is Ip cluster (void) 
{ 
unsigned int reg; 
reg =readl (FLOW CTRL CLUSTER CONTROL); 
return (reg& 1); /* 0 == G, 1 == LP */ 


EUGEFLOW CTRL CLUSTER CONTROL 寄存 器 判断 自己 是 G 核 还 是 LP 核 。 
2.G 核 和 LP 核 集群 的 切换 时 机 


[场景 1」 何 时 从 LP 核 切 换 给 G 核 ， 当 前 执行 于 LP 集群 ，CPUFreq 驱 动 判断 出 LP 核 需 要 增 频率 到 超过 
高 值 门限 ， 即 TEGRA HP UP: 


OaserlBbGRA HP UP; 
it (ls lp clusterit) €& Tne Lp) 1 
Lol ok set Parent (Opu elk, cpu g Clk)) 4 
hp stats update(CONFIG NR CPUS, false); 
hp stets updare(0, true); 
/* catch-upwith governor target speed */ 
tegra cpu Set speed cap (NUL); 


[场景 2」 何 时 从 G 核 切换 给 LP 核 ， “SHAT Gt. CPUFreqJEz/I3] Br EH Ji GAZ i 8 ACH SUMI F 
低 值 门限 ， 即 TEGRA HP DOWN， 且 最 慢 的 CPUID 不 小 于 nr cpu ids (实际 上 代码 逻辑 跟踪 等 价 于 只 有 


CPU0 还 活 看 的 情况 ) : 


caseTEGRA HP DOWN: 
cpu- Tegra get slowest cpu ni); 
Irfopu < nf Cpu ads) 4 


relse TT( LS lp cluster() es Luo Lp) 4 

LL(DOlkE Set parent(opu clk, cpu lp ccLk)) 1 

hp. Stats update (CONFIG NR CPUS, true); 

hp stets updare(0;, talse) ; 

/* catch-upwith governor target speed */ 

Lpegra Cou Seu speed. cap{ NULL), 
} else 

queue delayed work ( 

hotplug wq, &hotplug work, down delay); 


break; 


Dene by ERA fEclk set parent O 更 改 CPU 的 父 时 钟 里 面 ， 这 部 分 代码 写 得 比较 不 好 ， EK ZA 
宛 成 n 个 功能 ， 实 际 上 上 不仅 切 换 了 时 钟 ， 还 切换 了 G 和 LP 集 群 : 
CLK Set parenticpu clk, opu Lp cik) => 
tegra- Cou Ompli clc Seu. Parent (SC ructolk "Oo. SLPUCb cle 45) => 
tegra cluster Control (unsigned Int us, unsigned int fla98) => 


tegra cluster Swatch prolog() =] 
tegra cluster switch epilog() 


3.G AS SAVER 
fa ETT GRAIN SI AST, HUP. 


L355x3] SHAT T GS 8t, CPUFreq 3k ai Fi Br th AR GA rm e b URS PIKE IPR, RE 
TEGRA HP DOWN， 且 最 慢 的 CPUID 小 于 nr epu ids“〈 实 际 上 等 价 于 还 有 两 个 或 两 个 以 上 的 G 核 活着 的 情 
) ， 关 闭 最 慢 的 CPU， 留 意 tegra get slowest cpu n O 不 会 返回 0， 这 和 意味 着 CPU0 要 么 活着 ， 要 么 切换 
给 了 LP 核 ， 对 应 于 [场景 2」: 
GaseTEGRA HP DOWN: 
opus Tecra get slowest cou I 
if (cpu < mr cpu ids) 4 
up = Talse; 
queue delayed work ( 


hotplug wq,&hotplug work, down delay); 
hp stats updateiopuy, False); 


[场景 4」 SAT TORE, CPUFreq3X 2/173] Br th 2 GER v e Vc EK Fee BR, B 
TEGRA HP UP， 如 果 负 载 平 衡 状 态 为 TEGRA CPU SPEED BALANCED， 再 开 一 个 核 ， 如 果 状 态 为 
TEGRA CPU SPEED SKEWED， 则 关 一 个 核 。TEGRA CPU SPEED BALANCED 的 含义 是 当前 所 有 G 核 
要 求 的 频率 都 高 于 最 高 频率 的 350%，TEGRA CPU SPEED SKEWED 的 含义 是 当前 至 少 有 两 个 G 核 要 求 的 
频率 低 于 门限 的 25%， 即 CPU 频 紊 的 要 求 在 各 个 核 之 间 有 倾斜 |。 


CaselEGRA, HEP UP: 
Le (is. Lp Chuster() ee ino 1p) 1 


else { 
switch (Legra cpu speed balance()) { 


/* cpu speed is up and balanced - one more on-line */ 
case TEGRA CPU SPEED BALANCED: 
cpu =cpumask next zero(0, cpu online mask); 
Lt(opu <ni cpu cds) 4 
up: =Crue; 
hp stats Update (cpu, true); 
j 
break; 
/* cpu speed is up, but skewed - remove one core */ 
case TEGRA CPU SPEED SKEWED: 
cpu =tegra get slowest cpu n(); 
Ti (opa € nr cpu ide) { 
up =false; 
hp stats-upastetcopu, false); 
j 
break; 
/* cpu speed is up, butunder-utilized = do nothing */ 
case TEGRA CPU SPEED BIASED: 
default: 
break; 


} 


上 述 代 人 码 中 TEGRA CPU SPEED _BIASED 足 丛 的 售 义 是 有 1 个 以 上 G 核 的 频 这 低 于 最 局 频率 的 50% 但 
是 还 未 形成 “SKEWED”* 条 件 ， 即 只 是 “BIASED”， 还 没有 达到 “SKEWED” 的 程度 ， 因 此 暂时 什么 都 不 做 。 


目前 ，ARM 和 Linux 社 区 都 在 从 事 关 于 big.LITTLE 架 构 下 ，CPU 热 插 拔 以 及 调度 器 方面 有 针对 性 的 改 
进 工 作 。 在 big.LITTLE 架 构 中 ， 将 高 性 能 且 功 耗 也 较 高 的 Cortex-A15 和 稍 低 性 能 且 功 耗 低 的 Cortex-A7 进 行 
了 结合 ， 或 者 在 64 位 下 ， 进 行 Cortex-AS7 和 Cortex-AS3 的 组 合 ， 如 图 19.8 所 示 。 


big.LITTLE 架 构 的 设计 旨 在 为 适当 的 作业 分 配 恰当 的 处 理 句 。Cortex-A1S 处 理 硕 是 目前 已 开 及 的 性 能 
最 高 的 低 功 耗 ARM 处 理 器 ， 而 Cortex-A7 处 理 器 是 目前 已 开 友 的 最 节能 的 ARM 应 用 程序 处 理 器 。 可 以 利用 
Cortex-A15 处 理 器 的 性 能 来 承担 繁重 的 工作 负载 ， 而 用 Cortex-A7 可 以 最 有 效 地 处 理智 能 手机 的 大 部 分 工作 
负载 。 这 些 操作 包括 操作 系统 活动 、 用 户 弄 面 和 其 他 持续 运行 、 始 终 连 接 的 任务 。 


GIC-400 
Interrupts Í Í Interrupts 
Cortex-A15 Cortex-A15 Cortex-A7 Cortex-A7 
Core Core Core Core 
IO 
Coherent 
L2 L2 Master 


CCI-400 (Cache Coherent Interconnect) 


Memory Controller Ports System Port 


图 19.8 ”ARM 的 big.LITTLE 架 构 


三 性 在 2013 年 CES (国际 消费 电子 展 ) 大 会 上 友 布 了 Exynos 5Octa 8 核 移动 处 理 颖 ， 这 蒜 处 理 器 也 是 


X Hijbig.LITTLEZ&4JIS] 8 — SX CPU. 


19.9 TEE SIRAM 


Linux 文 持 STANDBY、 挂 起 到 RAM、 挂 起 到 便 盘 等 形 却 的 待机 ， 如 图 19.9 所 示 。 一 般 的 能 入 去 产品 仅 
仪 只 实现 了 挂 起 到 RAM 〈 也 简称 为 S2ram， 或 利 简 称 为 STR) ， 即 将 系统 的 状态 保存 于 内 存 中 ， 并 将 
SDRAM 首 于 目 刷 新 状 在 ， 行 用 户 按键 等 操作 后 再 重新 恢复 系统 。 少 数 通 入 式 Linux 系 统 会 实现 挂 起 到 使 盘 
CBIPRSTDO ， 它 与 挂 起 到 RAM 的 不 同 是 s2ram 并 不 关机 ，STD 则 把 系统 的 状态 体 持 于 做 盘 ， 然 后 藉 财 整 
个 系统 。 
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图 19.9 Linux 的 待机 模式 





在 Linux 下 ， 这 些 行为 通常 是 由 用 户 空 间 触 发 的 ， 通 过 同 /sys/power/state 写 入 mem 可 开始 挂 起 到 RAM 的 
流程 。 当 然 ， 许 多 Linux 产 品 会 有 一 个 按键 ， 一 按 束 进入 挂 起 到 RAM。 这 通常 是 由 于 与 这 个 按键 对 应 的 输 
入 设备 驱动 汇报 了 一 个 和 电源 相关 的 input_event， 用 户 空 间 的 电源 省 理 daemon 进 程 收 到 这 个 事件 后 ， 再 触 
发 s2ram 的 。 当 然 ， 内 核 也 有 一 个 INPUT APMPOWER 驱 动 ， 位 于 drivers/input/apm-power.c 下 ， 它 可 以 在 内 
核 级 别 侦 听 EV_PWR 类 事件 ， 并 通过 apm queue event (APM USER SUSPEND)〉 自 动 引 发 82ram: 


Static void System power, event (unsigned int keycode) 
{ 
Switch (keycode) { 
Gase KEY SUSPEND: 
apm queue event (APM USER SUSPEND) ; 
pr info("Requesting system suspend...\n"); 
break; 
default: 
break; 
j 

j 
static void apmpower event(struct input handle *handle, unsigned int type, 
unsigned int code, int value) 
Las 
Switch (type) { 
case EV PWR; 

System power event (code); 
break;. 

j 

j 


在 Linux 内 核 中 ， 大 致 的 挂 起 到 RAM 的 挂 起 和 恢复 流程 如 图 19.10 所 示 《〈 军 小 的 操作 包括 同步 文件 系 
统 、freeze 进 程 、 设 备 驱 动 挂 起 以 及 系统 的 挂 起 入 口 守 ) 。 


在 Linux 内 核 的 device_ driver 结 构 中 ， 含 有 一 个 pm 成 员 ， 它 是 一 个 dev_pm ops 结 构 体 指针 ， 在 该 结构 体 


中 ， 封 闭 了 挂 起 到 RAM 和 挂 起 到 便 盘 所 需要 的 回调 图 数 ， 如 代码 请 单 19.13 所 示 。 


代码 清单 19.13 dev pm ops 


结构 体 


Struct dev pm ops 1 


1 

2 Int 
3 VOLO 
4 int 
S int 
6 Tat 
7 Int 
8 int 
9 int 
10 int 
11 lne 
12 int 
La Int 
14 Ine 
15 Int 
16 Int 
17 int 
18 int 
19 int 
20 ine 
21 int 
22 int 
23 ine 
24 int 
25} 


(*prepare) (struct device *dev); 
(*complete) (struct device *dev); 
(*suspend) (struct device *dev); 
(*resume) (struct device *dev); 
(*freeze) (struct device *dev); 
(*thaw) (struct device *dev); 
(*poweroff) (struct device *dev); 
(*restore) (struct device *dev); 
(^suspend late)(tstrucc device *dev); 
(^resume Carly) (struct. device: dev)? 
(^Ireeze Ldte)istruct device ~dev); 
(“chew Carly) (struct. Gevice “dev? 
(^powerolr date) (struct device “dev):7 
(^restore Garly) (struct device *dev); 
(^suspend noOlrq)45brucb device en 
(^resuNe nolrg)tsLruco Cevice *dev)s 
(^lIreeze nolrg)(struct device *^dev); 
("chaw noirq)í(struct device *dév); 
(^poWeFrOPIP DOLPSq)(Strsuct device "dev)g 
(^DSStODPe norrg) (seruce device "dew 
(“ran ine Suspend) (scruce device *dev); 
(^runtime resume)(sLtruct device *dev)s 
(runtime idle) (Struce device "dev 


图 19.10 实 际 上 也 给 出 了 在 挂 起 到 RAM 的 时 候 这 些 PM 回 调 函 数 的 调用 时 机 。 
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119.10 ”Linux 挂 起 到 RAM 尝 程 


目前 比较 推荐 的 做 法 是 在 platform driver、i2c driverfüspi driver 等 xXxx driver 结 构 体 实例 的 driver 成 员 


H, BER 


结构 体 的 形式 封 狼 PM 回调 冰 数 ， 并 赋值 到 driver 的 pm 字段 。 如 代码 清单 19.14 中 的 第 50 行 ， 在 


drivers/spi/spi-s3c64xx.c 中 ，platform driver 中 的 pm 成 员 被 赋值 。 


代码 清单 19.14 


设备 驱动 中 的 pm 成 员 


1#ifdef CONFIG PM SLEEP 
orati Int S3ICOdxk BPL suspend(isLtruct device dev) 


一 一 


SUPUCE Spi Master “Master = dev get drvddqtatdevos 
Strüct ÉSo064xxX Spi driver data “sdd = Spr master get devdata (master); 


lut reL = Spi master Suspend (master)? 
if (ret) 
FeLUID TOC} 


if (lpm runtime suspended(dev)) 4 

CLE Gi Sable wunprepare(sdd= elk); 

GLK disable unprepare(Sdd=>sre clk); 
j 


EB!pDp|ppmBbbmibÀAbm 
OY O1 4» CQ) N PB O (o ATA O1 4 C9) 


sdd-»cur speed = 0; /* 输出 时 钟 停 止 */ 


17 

18 return: 0; 

19] 

20 

2 acele hb S3CO4Kx Spi resume(sLtuct device *dev) 
Zo 

25 STLUCL BP master *“masver = dev get drvdaca (dev); 
24 SULDUCL S2004XX Spl driver data “sdd = Spi master get devdara(mascver); 
290 SLLEUGL SSCO4xXx Spr LO “Sci. = pdd- Cntr Q2POY 
26 

Zi XX (8017-09 gpio) 

28 Sori-2cIg glo]? 

29 

30 if (!pm runtime suspended(dev)) | 

94 CLK Prepare ‘enable (sad->sre Clk); 

Sui CLK prepare enable sade>ciLk)7 

Do. 

34 

39 823004xx Spr DwWinteisdd, Sd port 2007 

36 

3? TetUurn Spi Mester resumnei(mascter); 

28] 

39#endif /* CONFIG PM SLEEP */ 

40 

Alstatic const struct dev pm ops s3c64xx spi pm = { 


42 SET SYSTEM SLEEP PM OPS5(s3có4xx spi suspend, s3co4xx spi resume) 
43 SET RUNTIME PM OPS(s3c64dxx spi runtime suspend, 


44 s3co4xx spi runtime resume, NULL) 

aor 

46 

A/Stlatic struct platrorn driver sc0dxx Sp. driver = 4 
48 .driver = { 

49 .name- "s3c604xx-spi", 

o0 .pm = &s3c64xx spi pm, 

51 OF match table = orf match ptri(soco4xx Spi dt macch), 
92. Ju 

93. probe = $3004Xx Spi. probe; 

34 .remove = s3c64xx spi remove, 

SO sid table = 55004xx Spi driver de, 

26]; 


s3c64xx spi suspend () 完成 了 时 钟 的 禁止 ，s3c64xx spi resume O 则 完成 了 硬件 的 重新 初始 化 、 
时 钟 的 使 能 等 工作 。 第 42 行 的 SET SYSTEM SLEEP PM OPS 是 一 个 快捷 宏 ， 它 完成 suspend、resume 等 成 


D ER SCIT AUI : 


#define SET SYSTEM SLEEP PM OPS(suspend fn, resume fn) \ 


.Suspend = suspend fn, \ 
.resume = resume fn, \ 
.freeze = suspend fn, \ 
.thaw = resume fn, \ 
.poweroff = suspend fn, ^ 
eStore = resume Th, 


除了 上 述 推行 的 做 法 以 外 ， 在 platform driver. i2c driver. spi driver xxx driver 结 构 体 中 仍然 保留 了 
过 时 (Legacy) 的 suspend、resume 入 口水 数目 前 不 再 推荐 使 用 过 时 的 接口 ， 而 是 推荐 赋值 xxx_driver 中 
的 driver 的 pm 成 员 ) ， 辟 如 代码 清 时 19.15 给 出 的 platform driver 束 包含 了 过 时 有 的 suspend、resume 竺 。 


代码 清单 19.1$ 设备 驱动 中 过 时 的 PM 成 员 函 数 


CPUC pvaviorm Ceiver: | 

int: (* probe). (Struct Plat orm device 7); 

dnb. (*LeMOve) (SeLuce pLsbrtorm Oevbce-T797 

void (*“Shucdown) (struct: platform device ^); 

rnt (*suspend)(strucct plaurorm.devriee =; pm message t state); 
rnt" (resume) (SC ruc: platrorm Ue LG miy 

SEPucuodewlge drven Orve 

CONSt: Struct plattorm device id *rd table; 


(O Om) OY O1 4» WN 


—— 
BE 


在 Linux 的 核心 层 中 ， 实 际 上 是 优先 选择 执行 xxx _ driver.driver.pm.suspend O 成 员 图 数 ， 在 前 者 不 存 
在 的 情况 下 ， 执 行 过 时 的 xxx driversuspend () ， 如 platform pm suspend O) 的 逻辑 如 代码 清单 19.16 所 


ZJN o 

代 但 请 单 19.16” 张 劲 核心 层 寻找 PM 回 调 的 顺序 
Lin plar orm pm suspendostruct ueevrce “dey) 

24 

3 Struct’ devsce- ODbIver *dry = udeve?drrbiver;. 

4 int ret - 0; 

3 

6 if (!drv) 

J return 0; 

8 

9 E- AAEN 0 “4 
10 if (drv->pm->suspend) 
LE ret = drv->pm->suspend (dev); 
d } else | 
103 fet — platrorsm legacy suspena (dev, PM SE .sSUSPEND); 
14 } 
Eo 
16 return ret; 
14 


一 般 来 讲 ， 在 设备 驱动 的 排 起 入 口 国 数 中 ， 会 关 财 设备 、 天 闭 该 设备 的 时 钟 输入 ， 甚 到 是 关闭 设备 的 
电源 ， 在 恢复 时 则 完成 相反 的 的 操作 。 在 挂 起 到 RAM 的 挂 起 和 恢复 过 程 中 ， 系 统 恢复 后 要 求 所 有 设备 的 
驱动 都 工作 正常 。 为 了 调试 这 个 过 程 ， 可 以 使 能 内 核 的 PM_DEBUG 选 项 ， 如 果 想 在 挂 起 和 恢复 的 过 程 
中 ， 看 到 内 核 的 打印 信息 以 关注 具体 的 详细 流程 ， 可 以 在 Bootloader 传 递 给 内 核 的 bootargs 中 设置 标志 


no console suspend. 


在 将 Linux 移 西 到 一 个 新 的 ARM SoC 的 过 程 中 ， 最 终 系 统 挂 起 的 入 口 需 由 心 厂 供应 商 在 相应 的 
arch/arm/mach-xxx 中 实现 platform_ suspend ops 的 成 员 函 数 ， 一 役 主 要 实现 其 中 的 enter 和 valid 成 员 ， 并 将 整 
个 platform suspend ops 结 构 体 通过 内 核 通用 API suspend set ops O 注册 进 系 统 ， 如 archy/arm/mach- 
prima2/pm.c 中 prima2SoC 级 挂 起 流程 的 逻辑 如 代 人 码 清 早 19.17 所 示 。 


代码 清单 19.17 系统 挂 起 到 RAM 的 SoC 级 代码 


人 
d 
3 Switch (state) { 
case PM SUSPEND) MEM; 
olrfsoc pre suspend power OLE)? 


5 

6 

7 outer LUSH alLlb( 

8 outer -darsab le.) ; 

9 LR uo. 222: NS 

Q cpu suspendio, Surisoc finish. suspend); 
由 Outer resume () 7 


12 break; 


NS default: 

14 return -EINVAL; 

15 } 

1:6 return 0; 

lw. 

Le 

io: X UdgLIOo OONSt SLIUCL platform suspend -ODpS si risoc pH Ope - 4 
20 NCSL = Droe Dn ener, 

2k «Valid = ‘suspend valid only mem, 
2 

VAS 

24 Ane — nit Sirrsoc pm ane (Vor) 

29. f 

2:6 Suspend set OpsS(esirrsoc pm ops); 
2 return 0; 

20 } 


上 述 代 码 中 第 $ 行 的 sirfsoc pre suspend power off © 的 实现 如 代码 清单 19.18 所 示 ， 它 会 将 系统 恢复 
回来 后 重新 开始 执行 的 物理 地 址 存 入 与 SoC 相 关 的 寄存 器 中 。 与 本 例 对 应 的 寄存 器 为 
SIRFSOC PWRC SCRATCH PADI, FiA f virt to phys (cpu resume) 。 在 系统 重新 恢复 
中 ， 会 执行 cpu resumeix EcL 3m, JEXET] EERE o 


代码 清单 19.18 ” SoC 设置 恢 复 回来 时 的 执行 地 址 


ET 


2 { 

3 32 Wakeup: entry = Vite CO phys (cpu resume); 

4 

9 SITrISOG Pb robro wEpbeliwdakeugp enetrve- SHppsoclpWEC base: 7 
6 OIBESOC PWRC SCRATCH PADI); 

7 

8 ORDISOG Sec Wakeup: Source)? 

9 
10 SIrrcisoc set sleep modet9oIRESOC DEEP SLEEP MODE); 
LL 
LZ fet urn O; 
La 


而 cpu_suspend (0, sirfsoc finish suspend) 以 及 其 中 调用 的 与 SoC 相 天 的 用 汇编 实现 的 函数 
sirfsoc finish suspend O) 真正 完成 最 后 的 符 机 并 将 系统 置 于 深度 睡眠 ， 同 时 置 SDRAM 于 目 刷 新 状态 的 过 
程 ， 有 基体 的 代码 高 度 依赖 于 特定 的 必 上 族 ， 其 实现 一 役 是 一 段 汇 编 。 


19.10 ”运行 时 的 PM 


在 前 文 给 出 的 dev_ pm ops 结 构 体 中 ， 有 3 个 以 runtime 开 头 的 成 员 函 数 : runtime suspend () 、 
runtime resume () 和 runtime idle O ， 它 们 辅助 说 备 完 成 运行 时 的 电源 党 理 : 


struct, Gey pn ops | 


int (*runtime Suspend) (struct device "dev)s 
Int. (*unmLtime Presume) (Struct device “devy).; 
int (“runtime idle) (struce device devis 


运行 时 的 PM 与 前 文摘 述 的 系统 级 挂 起 到 RAM 时 候 的 PM 不 太一 样 ， 它 是 针对 单个 设备 ， 指 系统 在 非 
睡眠 状态 的 情况 下 ， 某 个 设备 在 空闲 时 可 以 进入 运行 时 挂 起 状态 ， 而 在 不 是 空闲 时 执行 运行 时 恢复 使 得 设 
备 进 入 正常 工作 状态 ， 如 些 ， 这 个 设备 在 运行 时 会 省 电 。Linux 运 行 时 PM 了 最早 古 在 Linux2.6.32 内 核 中 仆 合 
并 的 。 


Linux 提 代 了 一 系列 API， 以 便于 设备 可 以 声明 上 自己 的 运行 时 PM 状态 : 
int pm runtime suspend(struct device *dev); 
引发 设备 的 挂 起 ， 执 行 相关 的 runtime suspend O) AX. 


inc pm schedule suspend(struct device “dev; unsigned anc delay); 


“调度 ”设备 的 挂 起 ， 延 迟 delay 坚 秒 后 将 挂 起 工作 挂 入 pm_wq 等 竺 队列 ， 结 果 等 价 于 delay 坚 秒 后 执行 相 
天 的 runtime suspend () eA. 


Int, pm xequest- autosuspendi(strucet device *dey); 


“调度 "设备 的 挂 起 ， 自 动 挂 起 的 延迟 到 后 ， 挂 起 的 工作 项 目 被 自动 放 入 队列 。 


int pm runtime resume(struct device *dev); 


引发 设备 的 恢复 ， 执 行 相关 的 runtime resume O PA. 


int pu request resume (Struct device dev)? 


发 起 一 个 设备 恢复 的 请 求 ， 访 请求 也 是 挂 入 pm_wq 等 待 队 列 。 


imt pm runtime dietstruoct device dev) 


引发 设备 的 空闲， 执行 相关 的 runtime ide O rS. 


Int pm request rdle(struct -devace *dev)r 


发 起 一 个 设备 空闲 的 请 求 ， 访 请求 也 是 挂 入 pm_wq 等 竺 队列 。 
void pm runtime enable(struct device *dev); 


使 能 设备 的 运行 时 PM 文 持 。 


Eric pm Um disables truet device dev) 


花 止 说 备 的 运行 时 PM 文 持 。 


PIU. pm Te GOCO UCE device: *dev)y 
Ln cpm run rne get Synetsubuco Cevice: "dev 


增加 设备 的 引用 计数 Cusage count) , 3Xx2S T elk get O ， 会 间接 引 友 设备 的 


runtime resume () 。 


Le Du Bern puscSbtfucc device dew)’; 
Ic: DN :untrme pub Sye (eC et device *dewv) 


减 小 设备 的 引用 计数 ， 这 类 似 于 clk put O ， 会 间接 引发 设备 的 runtime idle O 。 


我 们 可 以 这 样 简 单 地 理解 Linux 运 行 时 PM 的 机 制 ， 每 个 设备 《总 线 的 控制 器 自身 也 属于 一 个 设备 ) 都 
有 引用 计数 usage count 和 活跃 子 设备 (Active Children， 子 设备 的 意思 就 是 该 级 总 线 上 挂 的 设备 ) 计数 
child_count， 当 两 个 计数 都 为 0 的 时 候 ， 吏 进入 空闲 状态 ， 调 用 pm_ request idle (dev) 。 当 设备 进入 空闲 
状态 ， 与 pm request idle (dev) 对 应 的 PM 核 并 不 一 定 直接 调用 设备 驱动 的 runtime_suspend() ， 它 实际 
上 在 多 数 情 况 下 是 调用 与 该 设备 对 应 的 bus_type 的 runtime idle © 。 下 面 是 内 核 的 代码 逻辑 : 


sLaLric pm callback v.p ger Callpa Ck Struct device “dev, CIZE Eo. OLrISeL) 
{ 

pm celloaok © Cb; 

CONS. STVUCE ‘ev pu “Ops; 

if (dev-»pm domain) 

ops: = ¢dev=-pm domain=-oOps; 

else if (dev->type && dev->type->pm) 
ops = dev->type->pm; 

else if (dev->class && dev->class->pm) 
Ops = dev-»class-»pm; 

else if (dev->bus && dev->bus->pm) 

ops = dev->bus->pm; 


else 

ops = - NULE; 

if (ops) 

co = “(pm Callback...) ((vone. “Opis: F CO Oicset) 
else 

GH NULL; 


if (!cb && dev->driver && dev->driver->pm) 
chy = * (om callback ”tere €*)dgewesdrivere pir a CD O0r:5995) 
return cb; 


} 


据 此 可 知 ，bus type 级 的 回调 函数 实际 上 可 以 被 pm_domain、type、class 敌 兰 反 ， 这 些 都 统称 为 和子 系 
Zt. bus types T AAA A runtime idle O 行为 完全 由 相应 的 总 线 类 型 、 设 备 分 类 和 pm domain Aik 
定 ， 但 是 一 般 的 行为 是 子 系 统 级 别 的 runtime idle O 会 调度 设备 驱动 的 runtime suspend () 。 


在 具体 的 设备 驱动 中 ， 一 般 的 用 法 则 是 在 设备 驱动 probe() 时 运行 pm_runtime enable O 使 能 运行 
时 PM 文 持 ， 在 运行 过 程 中 动态 地 执行 pm runtime get xxx (O -> 做 工作 ->pm runtime put xxx ©) ”的 友 
列 。 如 代码 请 单 19.19 中 的 drivers/watchdog/omap wdt.cOMAPH 4! IJJ IK]. fEomap wdt start © 中 局 动 


了 pm runtime get sync () ， 而 在 omap wdt stop ©) 中 调用 了 pm runtime put sync () 。 
代码 清单 19.19 ”运行 时 PM 的 pm runtime get ©) 和 pm runtime put ©) 


lstatic Int Omap- woe start (struct: watchdog device ^wdog) 


3 struct omap wdt dev *wdev = watchdog get drvdata (wdog); 
4 void “Lomem *Dase = wdev--2Dbase; 

5 

6 mutex lock(&wdev-»lock); 

7 

8 wdev-»omap wdt users = true; 

9 

10 pm runtime get sync(wdev-»dev); 

LI 

12 A initialize prescaler *7 

1:5 while (readl relaxed(base + OMAP WATCHDOG WPS) & Ox01) 
14 CpG: Telak) 

do MUS 

16 mutex unlock(&wdev-»lock); 

E 

1:8 return. 0; 

294 
20static int omap wdt stop(struct watchdog device *wdog) 
Z4 
ZZ struct omap wdt dev *wdev = watchdog get drvdata(wdog) ; 
ZS 
24 mutex lock (&wdev->lock); 
25) omap wdt disable (wdev); 
26 pm runtime put sync (wdev-»dev); 
27 wdevesomap- wat users = Talse; 

28 mutex unlock(&wdev-»lock); 

29 return 0; 

30] 

Sal 

"tatLe CONS, SLEUCE watchdog. ops cmap wd Gpo = 4 

33 .owner = THIS MODULE, 

34 patart = MAP Wak, Start; 

DAT .Stop = OMap: wd StD; 

36 le = omap wdt ping, 

37 Set CAMEOUL = omap wdt set timeout, 

38 } 


上 述 代码 第 10 行 的 pm runtime get sync (wdev->dev) 告诉 内 核 要 开始 用 看 门 狗 这 个 设备 了 ， 如 果 看 
门 独 设 备 已 经 进入 省 电 模 陈 〈 之 前 引用 计数 为 0 且 执 行 了 运行 时 挂 起 ) ， 会 导致 该 设备 的 运行 时 恢复 ; 第 
26 行 告诉 内 核 不 用 这 个 说 备 了 ， 如 条 引 用 计数 变 为 0 且 活 跃 子 设备 为 0， 则 导致 该 看 门 狗 设 备 的 运行 时 持 
起 。 


在 东 些 设备 张 动 中 ， 下 接 使 用 上 述 引 用 计数 的 方 活 进 行 挂 起 、 衬 条 和 恢复 不 一 定 合适 ， 因 为 挂 起 状态 
的 进入 和 恢复 需要 一 些 时 间 ， 如 泉 设 备 不 在 挂 起 之 间 你 留 一 定 的 时 间 ， 频 素 进 出 挂 起 反而 会 市 来 新 的 开 
锁 。 因 此 ， 我 们 可 根据 情况 决定 只 有 设备 在 空间 了 一 段 时 间 后 才 进 入 挂 起 (一般 来 说 ， 一 个 一 段 时 间 没 有 
似 使 用 的 设备 ， 还 会 有 一 段 时 间 不 会 衫 使 用 )， 基 于 此 ， 一 些 设备 张 动 也 币 音 使 用 目 动 挂 动 模式 进行 编 


在 执行 操作 的 时 候 声 明 pm_runtime get O ， 操 作 完 成 后 执行 pm_runtime mark last busy O 和 
pm runtime put autosuspend OO ， 一 旦 目 动 挂 动 的 延 时 到 期 且 设 备 的 使 用 计数 为 0， 则 引 及 相关 
runtime suspend OO 入 口 函数 的 调用 。 一 个 典型 用 法 如 代码 清单 19.20 所 示 。 


代码 清单 19.20 “运行 时 PM 的 自动 挂 动 


lfoo read or write(struct foo priv *foo, void *data) 


Z1 

2 Lock(eroo-»prlvate Lock) 

4 add request to 10 gueue(roo, data); 

E Ir (Loo Sm pending Tequesta; ==. D) 

6 pm runtime get (&foo->dev) ; 

7 LI (ifoo-^r1sS suspended) 

8 LOO: DEOCSSS next Pequestiroo); 

9 unlock (é1roG->privace lock); 

10 

11 

l2rfO00 10 Completion (Struct. foo priv *foo, Void *reg) 
] 4 

14 loek(&foo-»private lock); 

ils: LE (--roo-omum pending requests == U) 4 

16 pm runtime mark last busy(&foo-»dev); 
dy pm runtime put autosuspend(&foo-»dev); 
18 } else { 

1 LOO process: next reQguesti0irool. 
20 } 
21 UNLOCK (LOO privare JLock); 
22 /* 将 请 求 结果 返回 给 用 户 ... */ 
do 


在 上 述 代 码 的 第 6 行 开始 进行 WO 传输 了 ， 因 此 运行 了 pm runtime get O 之 后 ， 当 IO 传输 结束 的 时 
候 ， 第 16~17 行 回 内 核 告知 该 设备 最 后 的 已 时 刻 ， 并 执行 了 pm_ runtime put autosuspend () 。 


设备 驱动 PM 成 员 的 runtime suspend O 一 般 完 成 剑 存 上 和 下文、 切 到 省 电 模式 的 工作 ， 而 
runtime resume () 一 般 完 成 对 便 件 上 电 、 恢 复 上 下 文 的 工作 。 代 人 码 清 蛙 19.21 给 出 了 一 个 drivers/spi/spi- 
p1022.c 的 案例 。 


代码 清单 19.21 运行 时 PM 的 runtime suspend/resume () ZW 


1#ifdef CONFIG PM 
2sLatro Int plLD022 runtime Suspend(struce device *dev) 


3l 

4 Struct pl022 *pl022 = dev get drvdatatdev); 
S 

6 CLK: drsable unprepare(plUZZ-^clLlk)g 

7 pDinctrl pm select idle state (dey); 

8 

9 return 0; 

10} 

UM 

IZStatLe ane LU runtime resumeistruct device devr) 
134 

14 struct pl0272 *pl1022 = dev get drvdatatdev); 
dc 

LG pincirl pm select derault statetdev)s 

17 clk prepare enable(tplo22--61€ 7 

18 

L9 return 0; 
20] 
2l#endif 
22 


2O059Ldtlc COn SLrTUCcC dev pm Ops pl022 dev pn ops = 4 
24 SET SYSTEM SLEEP PM OPS(pl027 suspend, pl0227 resume) 


25 OBI RUNTIME EM OPS(D51022 runtime suspend, pl022 runtime resume, NULE) 
26]; 


582547 SET RUNTIME PM OPS O 是 一 个 快捷 宏 ， 它 完成 了 runtime suspend. runtime resume 的 
赋值 动 作 ， 其 定义 如 下 : 


#define SET RUNTIME PM OPS(suspend fn, resume fn, idle fn) \ 


.runtime suspend = suspend fn, \ 
.runtime resume = resume fn, \ 
 Eulrbame dle gole ny 


其 实 ， 除 了 SET RUNTIME PM OPS O 和 前 文 介绍 的 SET SYSTEM SLEEP PM OPS () ， 在 
include/linux/pm.h 中 还 定义 了 SIMPLE DEV PM OPS (©) UNIVERSAL DEV PM OPS O 等 更 快捷 的 
A 


#define SIMPLE DEV PM OPS(name, suspend fn, resume fn) \ 
const struct dev pm ops name = ( \ 
oBI OXSTRM S LERF- PM OPSUSUSDene Lm Gesume. nm) N 
) 
#define UNIVERSAL DEV PM OPS(name, suspend fn, resume fn, idle fn) \ 
const struct dev pm ops name = { \ 
obr SYSTEM SLEEP PM-OPS(sSuspend in. resume fn) X 
SET RUNTIME PM OPS(suspend fn, resume fn, idle fn) \ 


在 内 核 里 充斥 着 这 些 宏 的 使 用 例子 。 我 们 从 UNIVERSAL DEV PM OPS O 这 个 宏 的 定义 可 以 看 
出 ， 它 针对 的 是 挂 起 到 RAM 和 运行 时 PM 行 为 一 致 的 场景 。 


19.11 总结 


Linux 内 核 的 PM 框 染 涉及 众多 组 件 ， 弄 消 楚 这 些 组 件 之 间 的 依赖 关系 ， 在 合适 的 看 眼 点 上 进行 优化 ， 
采用 正确 的 方法 进行 PM 的 编程 ， 对 改善 代码 的 质量 、 辅 助 功 耗 和 性 能 测试 都 有 极 大 的 好 处 。 


万 外 ， 在 实际 工程 中 ， 尤 其 是 在 消费 电子 的 领域 ， 可 能 有 超过 半数 的 pug 都 属于 电源 官 理 。 这 个 时 
候 ， 电 源 党 理 的 很 多 工作 束 是 在 搞定 鲁 棒 性 和 健壮 性 ， 可 以 说 ， 在 很 多 时 候 ， 这 了 束 是 个 体力 活 ， 需 要 工程 
MA E IITE 


P20% Linux® Ate X JE ze Up JJ 
本 章 导读 


本 章 主 要 讲解 ， 在 一 个 莉 的 ARM SoC 上 ， 如 何 移植 Linux。 妆 然 ， 本 章 有 的 内 容 也 适合 MIPS、PowerPC 
等 其 他 的 体系 结构 。 


*B20. LB 7c A Ms Er 28 I Linux 3.x 之 后 的 内 核 在 撒 层 BSP 上 进行 了 哪些 优化 。 
第 20.2 节 讲解 了 如 何 提供 操作 系统 的 运行 节拍 。 

第 20.3 节 讲解 了 中 断 控 制 器 驱动 ， 以 及 它 是 如 何 为 驱动 提供 标准 接口 的 。 

第 20.4 节 讲解 多 核 SMP 必 片 的 局 动 。 


7820.6-20.975 4) 3 EAA f 1E ZyLinuxie 1T JI Ez dli E GPIO, pinctrl, Hj ff IdmaengineJk JJ. 


学 习 本 章 有 助 于 工程 师 理解 驱动 调用 的 底层 API 的 来 源 ， 以 及 直接 进行 Linux 的 平台 移植 。 


20.1 ARM Linux 压 层 驱 动 的 组 成 和 现状 


为 了 让 Linux 在 一 个 全 新 的 ARM SoC Fia7iT, mete SMR, WEN aS TA. TPE Hl 
器 、SMP 启 动 、CPU 热 插 拔 以 及 底层 的 GPIO、 时 钟 、pincttl 和 DMA 硬 件 的 封装 等 。 定 时 器 节拍 、 中 断 控 
制 荆 、SMP 司 动 和 CPU 热 插 拔 这 几 部 分 相对 来 说 没有 像 持 期 GPIO、 时 钟 、pinctrl 和 DMA 的 实现 那么 好 
乱 ， 基 本 上 有 个 固定 的 套路 。 定 时 器 节拍 为 Linux 基 于 时 间 片 的 调度 机 制 以 及 内 核 和 用 户 空 间 的 定时 器 提 
供 文 撑 ， 中 断 控 制 右 的 驱动 则 使 得 Linux 内 核 的 工程 师 可 以 直接 调用 local irq disable () 、disable irq © 
等 通用 的 中 断 API， 而 SMP 启 动 支 持 则 用 于 让 SoC 内 部 的 多 个 CPU 核 都 投入 运行 ，CPU 热 插 拔 则 运行 运行 
时 挂 载 或 拔除 CPU。 这 些 工 作 ， 在 Linux 3.0 之 后 的 内 核 中 ，Linux 社 区 对 比 逐 步 进行 了 民 好 的 层次 划分 和 


架构 设计 ， 


在 GPIO、 时 钟 、pinctrt 和 DMA 驱 动 方面 ， 在 Linux 2.6 时 代 ， 内 核 已 或 多 或 少 有 GPIO、 时 钟 等 底层 驱 
动 的 架构 ， 但 是 核心 层 的 代码 太 薄 弱 ， 各 SoC 在 这 些 基础 设施 实现 方面 存在 巨大 差异 ， 而 且 每 个 SoC 仍 然 
需要 实现 大 量 的 代码 。pincttl 和 DMA 则 最 为 混乱 ， 几 乎 各 家 公司 都 定义 了 日 己 独 特 的 实现 和 APTI。 


社区 必须 改变 这 种 局 面 ， 于 是 Linux 和 社区 在 2011 年 后 进行 了 如 下 工作 ， 这 些 工作 在 目击 的 Linux 内 核 中 
FISHES MA : 


“STEricsson 公 司 的 工程 师 Linus Walleijfe t f ery pinctrl Yk 28 MJ, — AER A er I —-Ndrivers/pinctrl H 
录 ， 文 撑 SoC 上 的 引 脚 复 用 ， 各 个 SoC 的 实现 代码 统一 放 入 该 目录 。 


TI 公司 的 工程 师 Mike Turquette 提 供 了 通过 时 钟 框 如 ， 让 有 具体 SoC 实 现 clk ops O KRAAG AE 
clk register () ~ clk register clkdev (O 注册 时 钟 源 以 及 产 与 设备 的 对 应 天 系 ， 其 体 的 时 钟 驱 动 痢 统一 迁 
移 到 drivers/clk 目 录 中 。 


建议 各 SoC 统 一 采用 dmaengine 染 构 实 现 DMA 了 驱动 ， 该 架构 提供 了 通用 的 DMA 通 道 API， 如 
dmaengine prep slave single () 、dmaengine submit () 和 等， 要求 SoC 实 现 dma device 的 成 员 函 数 ， 实 现代 
fi 5 — TX A drivers/dma H 3€. 


:在 GPIO 方 面 ，drivers/gpio 下 的 gpiolib 已 能 与 新 的 pinctrl 完 美 共存 ， 实 现 引 脚 的 GPIO 和 其 他 功能 之 间 
的 复 用 ， 有 具体 的 SoC 只 需 实 现 通 用 的 gpio_chip 结 构 体 的 成 员 函 数 。 


经 过 以 上 工作 ， 基 本 上 就 把 心 片 压 层 基础 架构 方面 的 驱动 架构 统一 了 ， 实 现 方 法 也 统一 了 。 男 外 ， 目 
前 GPIO、 时 钟 、pinmux 守 都 能 民 好 地 进行 设备 树 的 映 喘 处 理 ， 辟 如 我 们 可 以 方便 地 在 .dts 中 定义 一 个 设备 
要 的 时 钟 、pinmux 引 脚 以 及 GPIO 。 


除了 上 述 基 础 设施 以 外 ， 在 将 Linux 移 植 入 新 的 SoC 过 程 中 ， 工 程 师 常常 强烈 依赖 于 早期 的 printk 功 


能 ， 内 核 则 提供 了 相关 的 DEBUG LL 和 EARLY PRINTK 支 持 ， 只 需要 SoC 提 供 商 实现 少量 的 回调 函数 或 


: 


KEERI EIR PEM op EE TT RJ LBS USOS] SER SEL HA SE Bld DT, WAS re EVA UH 
将 Linux 移 西 入 新 SoC 的 主要 工作 。 


20.2. ARK TASKS 


Linux 2.6 的 早期 (Linux2.6.21 之 前 ) 内 核 是 基于 廊 扣 设计 的 ， 一 般 SoC 公 司 在 将 Linux 移 植 到 目 己 心 
上 的 时 候 ， 会 从 芯片 内 部 找 一 个 定时 器 ， 并 将 该 定时 器 配置 为 赫兹 的 频率 ， 在 每 个 时 钟 节拍 到 来 时 ， 调 用 
ARM Linux 内 核 核心 层 的 tmer tick O 函数 ， 从 而 引发 系统 里 的 一 系列 行为 。 如 Linux 2.6.17 中 
arch/arm/mach-s3c2410/time.c 的 做 法 类 似 于 代码 清音 20.1 所 示 。 


代码 清单 20.1 早期 内 核 的 节 担 驱动 


Lee 

2 * IRQ handler for the timer 

a. oy 

4static irqreturn t 

99902410 Timer Interrupt (ne arg, VOLO *dev Iid; Struct pL regs 5895) 
6 { 


J write seqlock(&xtime lock); 

8 二 人 全 

9 write sequnlock(&xtime lock); 
ie return IRQ HANDLED; 
11} 
12 
ISStavcic Struct. 2rgdaction. $302410 timer TE0 - 1 
14 .name = "$3C2410 Timer Tick", 

15 yi lags = OA INTERRUPT | SA TIMER, 
16 .handler = 6302410. timet interrüpt; 
17}; 

ISSLATIG volo Init s3c2410 timer Init (void) 

| 
20 s3c2410 timer setup(); 
21 setup irq(IRO TIMER4, &s3c2410 timer irq); 
22} 


ANTT 20. VRE HEPES) TIMER 4 xe E] a RC E A P fü T, BE RRE EI STR A 1% eR 


timer tick O 。 


当前 Linux 多 采用 无 节 担 方案 ， 并 文 持 高 精度 定时 器 ， 内 核 的 配置 一 般 会 使 能 NO_HZ《〈 即 无 节拍 ， 或 
者 说 动态 节拍 ) MIHIGH RES TIMERS. 22GB UAW e796 WHIP A ze PU KR PUA IN P BIB. MEI T n 
TH ABER EA BU BERE JS] PES ^E. JOH, A RSIS TT TAL, DAS PSR Soa RK 
个 证 扣 在 何 时 友 生 。 如 来 田 一 个 时 间 轴 ， 周 期 三 拍 的 系统 证 扣 中 断 友 生 的 时 序 如 图 20.1 所 示 : 


| 


图 20.1 周期 节拍 的 系统 节拍 中 断 发 生 的 时 序 


而 NO_HZ 的 Linux 的 运行 节拍 如 图 20.2 所 示 ， 看 起 来 则 是 : PAR REESE s HIT ACE EY EST 18] [8 Bi n] 4 n] 


Aa: 


20.2 NO HZ 的 运行 节拍 


在 当前 的 Linux 系 统 中 ，S$oC 底 层 的 定时 器 被 实现 为 一 个 clock event device 和 clocksource 形 式 的 驱动 。 
在 clock event device 结构 体 中 ， 实 现 其 set mode () 和 set next event O BKM PKA; 在 clocksource 结 构 体 
中 ， 主 要 实现 read O 成 员 函 数 。 而 在 定时 鼎 中 断 服务 程序 中 ， 不 再 调用 timer tick O ， 而 是 调用 
clock event device 的 event handler €) 成 员 函 数 。 一 个 典型 SoC 的 捕 层 廊 招 定 时 可 驱动 形 如 代码 清单 20.2 所 


不 。 
代码 清单 20.2 ”新 内 核 基 于 clocksource 和 clock event 的 节 担 驱动 


lsStatrio irgreturn Lt xxx Ciner znterrupt(inut rg, void | 


21 

3 Struct CLOCK event device "ce = dev xd; 
4 T 

9 cecceVvent Aandler (ce); 

6 

7 return IRQ HANDLED; 

8 } 

E 


10/* read 64-bit timer counter */ 
listatic Cycle C. xxx Limes read (struct clocksource =op) 


12 { 

LS u64 cycles; 

14 

1.5 /* read the 64-bit timer counter */ 

16 cycles. = readl selaxed(xxx timer base + LATCHED: HI); 
17 cycles=(cycles<<32) |readl relaxed(xxx timer base + LATCHED LO); 
18 

19 return cycles; 

20} 

21 

2AB AELG INC XXX Timer set next even l (unsigned Jong delta; 
Zo struct clock event device ^ce) 

24 { 

es unsigned long now, next; 

26 now = readl relaxed(xxx timer base + LATCHED LO); 
21 next = now + delta; 

28 writel relaxed (nekt; xxx timer base + SIRFSOC TIMER MATCH 0); 
29 

230] 

34 

32zstatic void Xxx timer set mode(enum clock event mode mode, 
29 struct Clock event. device ce) 

34 { 

3 switch (mode) { 

36 case CLOCK EVT MODE PERIODIC: 

37 T 

38 case CLOCK EVT MODE ONESHOT: 

39 BH 

40 case CLOCK EVT MODE SHUTDOWN: 

41 E: 

42 case CLOCK EVT MODE UNUSED: 

43 case CLOCK EVT MODE RESUME: 

44 break; 

45 } 

46} 

TISLdtLlo Struce Clock even. device xxx Clockevent = | 

48 hame = “xXx Ghockevent", 

49 «rating = 200, 

DO features = CLOCK EVI FEAT ONESHOT, 

al .Set mode = xxx timer set mode, 

DZ et NeXt SVenL. = XXX. Cimer Ser next cvent,; 

D313 

54 

EL Scruce. Clocksource XXX clocksource = 4 

96 Dame = “xxx. clockEsource", 

57 .rating - 200, 

90 .mask = CLOCKSOURCE MASK(604), 

59 .flags - CLOCK SOURCE IS CONTINUOUS, 

60 aredd ex timer reso, 

61 Suspend = xc cIOGKSOUurce Suspend, 

62 .resume = xxx clocksource resume, 

03]; 

64 

OoSLgLic SDLPUCE IirgactCion sec Titer Lg = 4 

66 hame = "XXX TICK", 

67 .flags = IROF TIMER, 

68 irg = 0, 


09 Handler = xxx Cimer interrupb; 


70 dev 20 = gR Clockevenly 

71] 

ud 

73static void | init xxx clockevent init (void) 

74 { 

T clockevents calc mult shift(&xxx clockevent, CLOCK TICK RATE, 60); 
76 

11 XXX Qiocxevent.max delta ns = 

78 clockevent delta2ns(-2, &xxx clockevent) ; 

79 xxx clockevent,main delta ne = 

80 cCLOCROevent deltazns(2, Gxxx Clockevent) 

81 

Gz xxx GcLockevent.cpumask = -cpumask- or (0); 

63 clocRevents register device (xx GIOOKSVORL)s 

8 4 } 

eo 

Do/* initialize Lhe kernel jiity tiner source */ 

SiStAtLe VOLO .. INLC Xxx LINer ante (void) 

88 { 

89 

90 BUG ON(Glocksource register hz(¢xxx clocksource, CLOCK TICK RATE) ); 
91 BUG ON(setup irq(xxx timer irq.irq, &xxx timer irq)); 
92 Xxx clockevent inito; 

93) 

S4struct sys timer xxx timer = { 

95 IHE = 2 Cimon INL; 

96]; 


在 上 述 代 码 中 ， 我 们 特别 关注 如 下 的 函数 : 
l.clock event device 的 Set next eventhk n K žtxxx timer set next event () 


该 图 数 的 delta 参 数 是 Linux 内 核 传 递 给 撒 层 定时 豆 的 一 个 震 什 ， 它 的 合 义 是 下 一 次 贡 提 中断 产 生 的 便 
件 定 时 需 中 计数 套 的 人 相对 于 当前 计数 硕 的 委 什 。 我 们 在 该 函数 中 将 便 件 定时 需 设 置 为 在 “当前 计数 磊 计 
数值 +delta” 的 时 刻 产 生 下 一 次 节 担 中 断 。xxx clockevent init () 函数 中 设置 了 可 接受 的 最 小 和 最 大 delta 值 


对 应 的 纳 秒 数 ， 即 xxx_ clockevent.min delta ns 和 xxx clockevent.max delta ns. 


2.clocksourceHJread Y, ji PAI ALxxx timer read () 


VA ER 2 n] ie BUB MAT LS] 2 gi AY zu kg AN RP 8 ZEW AE, DWARA WE Ste Sl EY 
产生 中 断 ， 便 件 的 计数 总 是 在 进行 的 《我 们 要 理解 ， 计 数 总 是 在 进行 ， 而 计数 到 荣 人 后 要 产生 中 断 则 需要 
软件 设置 ) 。 因 此 ， 访 冰 数 给 Linux 系 统 提供 了 一 个 故 层 的 准确 的 参考 时 间 。 


3. 定 时 需 的 中 断 服 务 程 序 xxx timer interrupt () 


在 访 中 断 服务 程序 中 ， 有 直接 调 用 clock event devicelJevent handler C) RRAZ, event handler © 成 
员 函 数 的 具体 工作 也 是 Linux 内 核 根 据 Linux 内 核 配置 和 运行 情况 目 行 设置 的 。 


4.clock event device 的 set mode, im pki ZI xxx timer set mode () 


FOF CSE I aS RU RK. SRD AE, HBU—AREAKHONESHOTTEGX, Beit 
汤 。 当 然 新 版 的 Linux 也 可 以 使 用 老 的 周期 性 模式 ， 如 果 内 核 在 编译 的 时 候 末 选择 NO HZ, REJER 
全 驱动 依然 可 以 为 内 核 的 运行 提供 文 持 。 


这 些 函 数 的 结合 使 得 ARM Linux 内 核 底层 所 需要 的 时 钟 得 以 运行 。 下 面 举 一 个 典型 的 场景 ， 假 定 定时 
器 的 晶振 时 钟 频 率 为 IMHz 〈 即 计数 器 每 加 1 等 于 1us) ， 应 用 程序 通过 nanosleep 〈) API 睡 眠 100us， 内 核 
会 据 此 换算 出 下 一 次 定时 器 中 断 的 delta 值 为 100， 并 间接 调用 xxx_timer set next event O 去 设置 硬件 让 其 
在 100us 后 产生 中 断 。100us 后 ， 中 断 产生 ，xxx timer interrupt © 被 调用 ，event handler O 会 间接 唤醒 
睡眠 的 进程 并 导致 nanosleep () 函数 返回 ， 从 而 让 用 户 进程 继续 。 


这 里 要 特别 强调 的 是 ， 对 于 多 核 处 理 喜 来 说 ， 一 般 的 做 法 是 给 每 个 核 分 配 一 个 独立 的 定时 髓 ， 各 个 核 
根据 上 日 映 的 运行 情况 动态 地 设置 日 己 时 钟 中 断 发 生 的 时 刻 。 看 一 下 我 们 所 运行 的 ARM vexpress H # Sr 
(GIC 29twd) BUA: 


# cat /proc/interrupts 


CPU CPU CPUZ CPUS 
297 1548 ile 1501 1484 GIC 29. -twd 
34: 7 O 9 9 GIC 34 timer 
201 9 9 9 9 GIG» 396: NEGCCDIOSI 
SE 162 21 2 251 GIC. GJ Mart- pol 
41: 88 105 149 dd GIC. Al  mmer-plliox (cma) 
42: 5449 5443 5450 24003 GIC 42 mmci-pll18x (pio) 
44: O 8 dk O GIC 44 kmi-p1050 
45: 9 100 9 9 GIC 4D- kmr-pl050 
47: 9 O 9 O GIC 47  ethO 
FRETO: O 1 il 1 CPU wakeup interrupts 
TEIG 9 O 9 0 Timer broadcast interrupts 
TE T2 454 266 436 642 Rescheduling interrupts 
IPIO: 9 1 1 k Ue Onl: Cail wmnterrupts 
IPI4 O 9 9 QU: single rtunctrom call interrupts 
LPIS 9 O 9 OQ. CPU. stop Interrupts 
TBILG 0 O O 0 IRQ work interrupts 
DET 9 O 9 0 completion interrupts 
BE 9 


而 比较 低 效 率 的 方法 则 是 只 给 CPUO 提 供 定 时 右 ， 由 CPUO0 将 定时 右 中 断 通 过 IPI CInter Processor 
Interrupt， 处 理 器 间 中 断 ) 广播 到 其 他 核 。 对 于 ARM 来 讲 ，1 号 IPIIPI TIMER 就 是 来 负责 这 个 广播 的 ， 从 
arch/arnykernel/smp.c 可 以 看 出 : 


enum ipi msg type 1 
IPI WAKEUP, 
LET TIMER, 
IPI RESCHEDULE, 
IPI CALL FUNC, 
IPI CALL FUNC SINGLE, 
DET CDU IP, 


20.3 ”中断 控制 花 豫 动 


在 Linux 内 核 中 ， 各 个 设备 驱动 可 以 俐 里 地 调用 request irq ©) ~ enable irq () ~ disable irq ©) 、 
local irq disable () 、local irq enable () 等 通用 API 来 完成 中 断 申 请 、 使 能 、 禁 止 等 功能 。 在 将 Linux 移 
桓 到 新 的 SoC 时 ， 怪 卢 供应 丙 需 要 提供 该 部 分 API 的 撒 层 文 持 。 


local_irq disable () . local irq enable O 的 实现 与 其 体 中 断 控 制 右 无 和 天， 对 于 ARM v6 以 上 的 体系 结 
构 而 言 ， 是 直接 调用 CPSID/CPSIE 指 令 进 行 ， 而 对 于 ARM v6 以 前 的 体系 结构 ， 则 是 通过 MRS、MSR 指 令 
来 读 取 和 设置 ARM 的 CPSR 寄 存 器 。 由 此 可 见 ，local irq disable () 、local irq enable O 针对 的 并 不 是 
外 部 的 中 断 控 制 器 ， 而 是 直接 让 CPU 本 身 不 响应 中 断 请 求 。 相 关 的 实现 位 于 arch/arnyinclude/asnyirqflags.h 
中 ， 如 代 但 清单 20.3 所 示 。 


代码 清单 20.3 ARM Linux local irq disable () /enable €) 底层 实现 


1#if | LINUX ARM ARCH >= 6 

2 

3eLatrio anline unsigned Long arch Local Irq save(void) 
4 1 

5 unsigned long flags; 


7 asm volatile ( 
8 n mrs $0, cpsr @ arch local irq save\n" 


10 > "ep" (flags) e r "memory"; "eej; 
EL return flagsi 


lågtratio inline youd arch local irg enable(vore) 

Lad 

16 asm volatile ( 

1-7 ý cpsie i G arch local irg enable" 


24 { 
25 asm volatile( 
26 ý Cpsid: 1 G arch Local irg disable" 


29 . "memory", "oco" 


CET 

34 * Save the current interrupt enable state & disable IRQs 
db. wy 

JOSLHLLC anline unsigned long arch Local T1170 Sevetvold) 

YE, 

38 unsigned long flags, temp; 


40 asm volatile( 

41 2 mrs eU; OPSI @ arch local irq save\n" 
42 n örr Sl, 60, #12e\n" 

43 " msr Oper Gp wi" 

44 : "=r" (flags), "=r" (temp) 


46 : "memory", "cc"); 
4] return flags; 


907% 

ok * Enable IROS 

Da Wy 

Sosta Lic inline void arch local irg enable(void) 


25 unsigned long temp; 

56 asm volatile( 

57 " mrs o0. Cpsr @ arch local irq enable\n" 
58 Dre oO, ol, SLZOXu" 
De msr CDSE y <0" 

60 : "=r" (temp) 

61 : 

62 2; “memory”, "oo")s 

63] 

64 

DONE 

66 * Disable IRQs 

67 */ 

O6Static anline void arch. local irg disable (void) 
DO 

70 unsigned long temp; 

ps asm volatile( 

12 " mrs 905. Cost @ arch local irq disable\n" 
T3 Orr $0, $0, #128\n" 
74 msr OPSE Cc, 0 

I9 : "zr" (temp) 

76 

77 > "memory", “Cc™)¢ 

78} 

79 #endif 


与 local irq disable Ò local irq enable O 不 同 ，disable irq Ò ~ enable irq © 针对 的 则 是 中 断 
控制 器 ， 因 此 它们 适用 的 对 象 是 某 个 中 断 。disable irq O 的 字面 意思 是 暂时 屏蔽 掉 某 中 断 《〈 其 实在 内 核 
的 实现 层面 上 做 了 延 后 屏蔽 ) ， 直 到 enable irq O 后 再 执行 ISR。 实 际 上 ， 屏 项 中 断 可 以 发 生 在 外 设 、 中 
断 控制 器 、CPU 三 个 位 置 ， 如 图 20.3 所 示 。 对 于 外 设 端 ， 是 从 源头 上 就 不 产生 中 断 信 号 给 中 断 控 制 器 ， 由 
于 它 高 度 依赖 于 外 设 于 本 身 ， 所 以 Linux 不 提供 标准 的 API 而 是 由 外 设 的 驱动 直接 读 写 自 身 的 寄存 器 。 











中 断 控制 器 CPU 
3 
外 设 ! 
hit > | > 1 
是 接 谈 写 外 设 disable irq() EY disable() 
fn enable irq() local irq enable() 
1 ub 小 一 | 人 
图 20.3 ”屏蔽 中 断 的 3 个 不 同位 置 


在 内 核 中 ， 通 过 irq chip 结 构 体 来 描述 中 靳 控制 嚣 。 该 结构 体内 部 封装 了 中 汤 mask、unmask、ack 等 成 


yz 


代码 清单 20.4 


LODCEUOL. irg CIL 1 


z const char 
3 unsigned int 
4 void 

S void 

6 void 

7 

8 void 

9 void 
10 void 
11 void 
12 void 
13 
14 int 
15 int 


函数 ， 其 定义 于 include/linux/irq.h 中 ， 如 代码 清单 20.4 所 示 。 


irq _ chip 结构 体 


*name; 

(“Lrg BLartup)fStruct irg dara “data); 
(可 shutdown) (struct irg data *data) ; 
(^uxsg enable (SLIUuDt ted data dalal; 
(LG Giseble) (struct vg daca darla); 


(^q eck) GSUTUOSL arg data "dataj; 

了 工人 Mask) (struce irg data dara); 
(“Ird mask ack) (Seruce Tr0 Qata ~data); 
(IEG unmask) (struct irg data *data); 
(Pig SOL) (SCruce 26g data *daca); 


(^urg Set arrini y) (Struck 1r¢q daca “data, OORSC Strucr 
cpumask *dest, bool force); 
(irg reri ggr) (Struce Icd dara “data; 


16 int (“IY set type)(strüuct Ird data "data; unsigned ant 
flow type); 
17 int (“Irq Ser wake)(struct Te0 data "data, unsigned ane: on)? 


各 个 心 厂 公司 会 将 心 记 内 部 的 中 断 控 制 右 实现 为 Irq_chip 驱 动 的 形式 。 受 限于 中 靳 控制 血便 件 的 能 
力 ， 这 些 成 员 函 数 并 不 一 定 需 要 全 部 实现 ， 有 时 低 只 前 要 实现 其 中 的 部 分 函数 即 可 。 辟 如 
drivers/pinctrl/sirf/pinctrl-sitf.c 驱 动 中 的 下 面 代码 部 分 : 
Stace STPSUCL irg Chip SLIECSOC Ird Onip = 1 
.name = "sirf-gpio-irg", 
Ed ack =615Es0C gpro irg ack, 
„irg Mask = SLrEsSOC gprlo irg mask, 


dq UlMesk = GSXTIsOO gpIO 1rd unmask; 
LEGO Set Type = SLELSOC gpio rg type, 


我 们 只 实现 了 其 中 的 ack、mask、unmask 和 set typek R EZ, ack% H Tis Flt, mask. unmask Hi 
于 中 断 屏蔽 和 取消 中 断 屏蔽 、set type 则 用 于 配置 中 断 的 触发 方式 ， 如 高 电 平 、 低 电 平 、 上 升 沿 、 下 降 治 
等 。 至 于 到 enable irq O 的 时 候 ， 虽 然 没 有 实现 irq enable O 成 员 函 数 ， 但 是 内 核 会 间接 调用 
irq unmask () 成 员 函 数 ， 这 点 从 kernel/irq/chip.c 中 可 以 看 出 : 


vold irg enable (Struct. 2580 desc *desc) 
{ 
irg State Clr GOusabled (desc); 
LL (OSSC=>120 Gaca.Chip-2irgd enable) 
desc weg dSate.cnhrpe-irq Snable(scesc--17q data); 
else 
desceLnPq datechlp-^nrq unmaski(iedesc-oirg date); 
irg state Clr maskedi(desc); 


在 心 片 内 部 ， 中 断 控 制 咒 可 能 不 止 1 个 ， 多 个 中 断 控制 器 之 间 还 很 可 能 是 级 联 的 。 举 个 例子 ， 假 设 心 
片 内 部 有 一 个 中 断 控 制 器 ， 支 持 32 个 中 断 源 ， 其 中 有 4 个 来 源 于 GPIO 控 制 器 外 围 的 4 组 GPIO， 每 组 GPIO 
上 又 有 32 个 中 断 《〈 许 多 芯片 的 GPIO 控 制 器 也 同时 是 一 个 中 断 控 制 器 ) ， 其 关系 如 图 20.4 所 示 。 


中 断 控 制 器 


< 
< 
< 
< 
< 
< 
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< 
< 
4 
可 
< 





图 20.4 SoC 中 断 控 制 器 的 典型 分 布 


那么 ， 一 般 来 讲 ， 在 实际 操作 中 ，gpio0 0~gpio0 31 这 些 引 脚本 身 在 第 1 级 会 使 用 中 断 号 28， 而 这 些 
引 脚 本 有 身 的 中 断 志 在 实现 与 GPIO 控 制品 对 应 的 irq_chip 驱 动 时 ， 我 们 又 会 把 它 映 射 到 Linux 系 统 的 32~63 号 
HAr. EJE, gpiol O~gpiol 31 这 些 引 脚本 映 在 第 1 级 会 使 用 中 断 号 29， 而 这 些 引 脚本 喘 的 中 断 亏 在 实现 


与 GPIO 控 制 器 对 应 的 irq_chip 驱 动 时 ， 我 们 又 会 把 它 映 射 到 Linux 系 统 的 64~95 号 中 断 ， 以 此 类 推 。 对 于 中 
叶 写 的 使 用 者 而 言 ， 无 希 看 到 这 种 2 级 映射 关系 。 如 果菜 设备 想 申 请 与 gpiol 0 这 个 引 脚 对 应 的 中 断 ， 它 只 
需要 申请 64 写 中 汤 即 可 。 这 个 天 系 图 看 起 来 如 图 20.5 所 示 。 


要 特别 注意 的 是 ， 上 述 图 20.4 和 20.5 中 所 涉及 的 中 断 号 的 数值 ， 无 论 是 base 还 是 具体 某 个 GPIO 对 应 的 
中 汤 写 是 多 少 ， 痢 不 一 定 是 如 图 20.4 和 图 20.5 所 揪 述 的 人 简单 线性 映 册 。Linux 使 用 IRQ Domain 来 描述 一 个 
中 断 控 制 融 所 管理 的 中 断 源 。 换 名 话说， 每 个 中 断 控 制 磺 都 有 目 己 的 Domain。 我 们 可 以 将 了 仆 Q Domain 看 
作 是 IRQ 控 制 器 的 软件 抽象 。 在 添加 IRQ Domain 的 时 候 ， 内 核 中 存在 的 映射 方法 有 : 


irq domain add legacy ©) ~ irq domain add linear ©) . irq domain add tree () 等 。 
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120.5 PTA R 


irq_domain_add legacy () 实际 上 是 一 种 过 时 的 方法 ， 它 一 般 是 由 IRQ 控 制 器 驱动 直接 指定 中 断 源 硬 
件 意 义 上 的 偏 移 〈 一 般 称 为 hwirg) 和 Linux 逻 辑 上 的 中 断 号 的 映射 关系 。 类 似 图 20.5 的 指定 映射 可 以 被 这 
种 方法 弄 出 来 。irq domain add linear © 则 在 中 断 源 和 irq_ desc 之 间 建 立 线性 映射 ， 内 核 针 对 这 个 IRQ 
Domain 维 护 了 一 个 hwirq 和 Linux 逻 辑 耻 Q 之 间 关 系 的 一 个 表 ， 这 个 时 候 我 们 其 实 也 完全 不 关心 逻辑 中 断 号 
J; irq domain add tree © 则 更 加 有 灵活， 所 辑 中 断 号 和 hwirq 之 间 的 映射 天 系 羡 用 一 株 radix 树 来 持 述 的 ， 
我 们 需要 通过 查找 的 方法 来 寻找 hwirq 和 Linux 逻 辑 IRQ 之 间 的 关系 ， 一 般 适 合 某 中 断 控 制 器 支持 非常 多 中 
断 源 的 情况 。 


实际 上 ， 在 当前 的 内 核 中 ， 中 断 号 更 多 的 是 一 个 过 辑 概念 ， 有 其 体 数 值 是 多 少 不 是 很 关键 。 人 们 更 多 的 


是 关心 在 设备 树 中 设置 正确 的 interrupt parrent 和 相对 该 interrupt parent H) Ht - 


LA drivers/pinctrl/sirf/pinctrl-sirf.cH'Jirq. chip 部 分 为 例 ， 在 sirfsoc gpio probe © 函数 中 ， 每 组 GPIO 的 中 
Wr Abii epiochip set chained irqchip © 级 联 到 上 一 级 中 断 控 制 左 的 中 打 。 


代码 清单 20.$ ”二 级 GPIO 中 断 级 联 到 一 级 中 断 控制 器 


lSratrlc nr reoec gpro probeistruet device node ^np) 


(1 = OF L < SLRESUC GPIO NO OP BANKS? IFF) 4 


bank = &sgpio-»sgpio bank[i]; 
Spin 00k jana Cbank=-> Lock 
Dank-operent irg = platform get 11g (pdev; 1)7 
Lr (Dank=>parent. irg < U) { 
err = Dank- parent L0]; 
goro out Danks; 


} 


gpioochip Set Chained: L1rdgoolipi&4sgploe-cbhrpwSgos 
&SIrIsOC. irq chip; 
bank-^parsenct rq, 
TO gP o handle 1rg); 


对 于 SIRFSOC GPIO NO OF BANKS 这 么 多 组 GPIO 进 行 循环 ， 上 述 代 码 中 第 15 行 的 bank->parent irq 
是 与 这 一 组 GPIO 对 应 的 “上 级 ”中 汤 写 ，sirfsoc gpio handle irq (OO 则 是 与 bank->parent irq 对 应 的 “上 级 ”中 
靳 服务 程序 。 而 sirfsoc_gpio_ handle irq O 这 个 “上 级 ”函数 最 终 还 是 要 调用 GPIO 这 一 级 别 的 中 断 服 务 程 


序 。 


在 sirfsoc gpio handle irg © eAACHY AL Abia chained irq enter © 暗示 日 喘 进 入 链 式 IRQ 人 处 理 ， 在 
国 数 体内 判 雇 具体 的 GPIO 中 断 ， 并 通过 generic handle irq O 调用 最 终 的 外 人 设 驱 动 中 的 中 断 服 务 程 序 ， 最 
后 调用 chained irq exit ©) 暗示 目 号 退出 链 陈 IRQ 处 理 ， 如 代码 清单 20.6 所 示 。 


代码 清单 20.6 “上 级 中断 服 务 程 序 派生 到 下 级 


locatio void ESG gplo Handle Lrq(unergued ant arg, EU irg desc *09590) 


Z1 
3 


4chained irq enter(chip, desc); 


9 


6while 


(status) { 


CUEL = Segdlisopro- cHBIp.rege = SIREOQC GPIO CTRL(baBES 30, Idx); 


/* 
* Here we must check whether the corresponding GPIO's interrupt 
* has been enabled, otherwise just skip it 
n 

if ((status & 0x1) && (ctrl & SIRFSOC GPIO CTL INTR EN MASK)) { 

generic handle irq(irq find mapping(gc->irqdomain, idx + 
bank-»id * SIRFSOC GPIO BANK SIZE)); 

j 


lod 
Status = status >> 1; 


22charneoc. Irog exit(conip, dese); 


Lo} 


下 面 用 一 个 实例 来 呈现 这 个 过 程 ， 假 设 GPIO0 0~31 对 应 上 级 中 断 号 28， 而 外 设 A 使 用 了 GPIOO 5 CB 
第 0 组 GPIO 的 第 5 个 ) ， 并 假定 外 设 A 的 中 断 号 为 37， 即 32+5， 中 断 服务 程序 为 deva isr O 。 那 么 ， 当 
GPIOO 5 中 断 发 生 的 时 候 ， 内 核 的 调用 顺序 是 : sirfsoc gpio handle irq () ->generic handle irq () - 
»deva isr ©) 。 如 果 硬 件 的 中 断 系 统 有 更 深 的 层次 ， 这 种 软件 上 的 中 断 服务 程序 级 联 实际 上 可 以 有 更 深 的 


ZI. 


在 上 述 实 例 中 ，GPIO0 0~31 的 interrupt parrent 实 际 是 上 级 中 新 控制 戎 ， 而 外 设 A 的 interrupt parrentj 
征 GPIO0， 这 些 都 会 在 设备 树 中 进行 择 现 。 


很 多 中 断 控 制 右 的 寄存 夯 定 义 呈 现 出 简单 的 规律 ， 如 有 一 个 mask 寄 存 秦 ， 其 中 每 1 位 可 拼 页 1 个 中 糊 
等 ， 在 这 种 情况 下 ， 我 们 无 须 实现 1 个 完整 的 irq _ chip 驱动 ， 而 可 以 使 用 内 核 提 供 的 通用 irq chip 驱 动 架 构 
irq chip generice， 这 样 只 需要 实现 极 少 量 的 代码 ， 如 drivers/irqchip/irq-sirfsoc.c 中 ， 用 于 注册 CSR 
SiRFprimalI 内 部 中 靳 控制 右 的 代码 〈 见 代码 清早 20.7) 。 


代码 清早 20.7 ”使 用 generic 的 irq_chip 框 架 


上 

AGITI SOC- aLlTOO OO _1Omem US QIODed Nt T1709 Stark, Unevgned.cqpi mum) 
34 

4 SULUCE. Tro CNI: generrco TGC 

5 SeLruce Lio Chip ye Yeu; 

6 int ret; 

7 unsigned int clr = IRQ NOREQUEST | IRQ NOPROBE | IRQ NOAUTOEN; 

8 unsigned wane Sel = IRO LEVEL} 

9 
T.U Lek = irg slloc domain generic CDIDS(slrcsoc crgoomaczn;nqum, d. "aed sitrsoc”, 
diu handle level rgy cir, set, AROGE INIT MASK CACHE) 7 
17 
LS OC = XPqueget domern Generic Chip (Sie rsoc ar Goomain,. T2700 Share); 
14 goecreg -pase = base; 
1:5 Gt e g= ChI p Types; 
EO Sol Mask = are Mask GL DIE? 
17 Gít-cOhrpadtq unmesk = L170 oC. mask cet bac, 
18 CEe-oregs.mask. = SERPSOC. INT Rist MASKO; 
19] 


irq_chip 驱 动 的 入 口 声 明 方 法 形 如 : 


开局 本 CR 


运行 的 初始 化 函数 。 


特别 值得 一 所 的 古 ， 


儿 乎 不 需要 实现 任何 代码 ， 只 需要 在 设备 树 中 洪 加 相关 的 市 乓 。 


如 在 arch/arm/boot/dts/exynos5250.dtsi 中 即 含有 : 


gic:interrupt-controller810481000 { 


PROCHILE -DE CLARE 
IROCHIP DECLARE 
LROCHILILP DECLARE 
TROCHI EP DECLARE 


compatible = "arm, cortex-a9-gic"; 
itinterruptecells = KO 

interrupt-controller; 

reg = «0x10481000 0x1000»5, «0x10482000 0x2000»; 


打开 drivers/irqchip/irq-gic.c， 发 现 GIC 驱 动 的 入 口 声 明 如 下 : 


四 了 
COTTO alo Qno. “arm; COrre sal ore y GLO Ol Into); 
GE 
COTLOX al GLC. Tarm COren aegne QLC OT ane); 


一 ~ CTC、 一 


sirf，Pprima2-intc 是 设备 树 中 中 断 控 制 器 的 compatible 字 段 ，sirfksoc irq init 是 匹配 这 个 compatible 字 上 段 后 


目前 多 数 主 流 ARM 心 请 内 部 的 一 级 中 断 控 制 硕 都 使 用 了 了 ARM 公司 的 GIC， 我 们 


IROCHIE DECLARE (msm: 9600 dO0ro, "uoeom,msm-oo00sggiCc ys Le Ot. anal); 
IBOCHIP DECLARE (msm qgs92,.—  "qcomymene-ggicoz'. GLO- OF Ina); 


Y Y 


1X M HH drivers/irqchip/irg-gic.cix | Uk zJJuJ UA ítzarm, gic-400. arm, cortex-al5-gic. arm, cortex-a7-gic 
等 ， 但 是 初始 化 函数 都 定 统 一 的 gic_of init. 


20.4 SMP2 IASI ECcPUWWddii lj 


在 Linux 系 统 中 ， 对 于 多 核 的 ARM 世 片 而 言 ， 在 Bootrom 人 代码 中 ， 每 个 CPU 都 会 识别 自身 ID， 如 果 ID 
古 0， 则 引导 Bootloader 和 Linux 内 核 执 行 ， 如 条 ID 不 是 0， 则 Bootrom 一 般 在 上 电 时 将 目 且 置 于 WEFI 或 者 
WEFE 状 态 ， 并 等 待 CPU0 给 其 及 CPU 核 间 中 靳 或 事件 《一般 通过 SEV 指 令 ) 以 唤醒 它 。 一 个 典型 的 多 核 
Linux Ja 2/] i Fi Wl 20.675 - 


被 CPU0 唤 醒 的 CPUn 可 以 在 运行 过 程 中 进行 热 搬 拔 ， 璧 如 运行 如 下 命令 即 可 仓 载 CPU1， 并 且 将 CPUl 
上 的 任务 全 部 迁移 到 其 他 CPU 中 : 


# echo 0 > /sys/devices/system/cpu/cpul/online 
= ,一 /一 人 Y N = 
PE, efr a Rare n] YA CPUN: 
# echo 1 > /sys/devices/system/cpu/cpul/online 


之 后 CPU1 会 主动 参与 系统 中 各 个 CPU 之 间 要 运行 任务 的 负载 均衡 工作 。 





Bootrom 


Bootloader 


























多 个 CPU 共同 承担 系统 负载 〈 负 载 均 衡 ) 


图 20.6 一 个 典型 的 多 核 Linux 局 动 过 程 





CPU0 唤 醒 其 他 CPU 的 动作 在 内 核 中 被 封闭 为 一 个 smp_ operations 的 结构 体 ， 对 于 ARM 而 言 ， 它 定义 于 
arch/arm/include/asm/smp.hH! . ZZ fA AS AN Jo, 9a PRB dir 20.8 AIT AN o 


代码 清单 20.8 smp operations 结 构 体 


IStruct smp operations 1 
2#ifdef CONFIG SMP 


3 ai 
* beLup the set Of possible CPUS (Via Sec epu possible) 

5 S 

6 void (*smp init cpus) (void); 

7 p 

8 ^- Initialize opu possible map, end enable coherency 

J m 
10 võid ("Smp prepare cpus) (unsigned int max cows); 
11. 
12 [> 


1.3 * Perform platform specific initialisation of the specified CPU. 


14 221 


ilge void (*Smp.secondary 1010) {unsigned Tnt Cpu) 7 

16 co 

K * Boot a secondary CPU, and assign it the specified idle task. 

18 * This also gives us the initial stack to use for this CPU . 

19 iri 

20 int (“omp boot secondary) (Unsigned nt Cou, Sirc task struct *2019)7 
2igltder CONFIG HOTPLUG CPU 

Ze int cpu kill) (unsigned int cpu); 


(* 
Zo vöid. ("cpu die) (unsigned. int cpu); 
24 ine (^cpu disable)i(unsigned Int Opuj); 
25#endif 
26#endif 
27}; 


我 们 从 arch/arm/mach-vexpress/v2m.c 中 看 到 VEXPRESS 电 路 板 用 到 的 smp_ ops ©) 为 


vexpress smp Ops: 


DT MACHINE START(VEXPRESS DT, "ARM-Versatile Express") 


.dt compat — v2m dt match, 
.Smp = smp ops(vexpress smp ops), 
.map io = Vm ec Map. 10; 


MACHINE END 


通过 arch/arm/mach-vexpressmplatsmp.c 的 实现 代码 可 以 看 出 ，smp_operations 的 成 员 函 数 
smp init cpus () ， 即 vexpress_smp init cpus © 调用 的 ct ca9x4 init cpu map O 会 探 出 SoC 内 CPU 核 的 
个 数 ， 并 通过 set cpu possible ©) 设置 这 些 CPU 可 见 。 


而 smp _ operations 的 成 员 函 数 smp prepare cpus () ， 即 vexpress smp prepare cpus CO 则 会 通过 
v2m flags set (virt to phys (versatile secondary startup) ) 设置 其 他 CPU 的 局 动 地 址 为 
versatile secondary startup， 如 代码 清早 20.9 所 示 。 


代码 清单 20.9 ”在 smp prepare cpus OO 中 设置 CPU1...n 的 局 动 地 址 


Letatie Void: .. Inst Vexpress smp prepare cpus (unsigned Int max Cpus) 
2{ 

3 

4 

2 ) 

6 * Write the address of secondary startup into the 

] * system-wide flags register. The boot monitor waits 

8 * until it receives a soft interrupt, and then the 

9 * secondary CPU branches to this address. 
10 E 
11 wem ilag se {virt tO phys (versariic Secondary Startup) ); 
127 


IE Ep AY BS SE TF zz SSoCHAAN, AA tr UH AR Bootromikt Œ. X F 
VEXPRESS 来 讲 ， 设 置 方法 如 下 : 


Re 


wrlitel(-«0, vam sysreg base + V2M SYS. FLAGSCIR); 
writelidata, v2m sysreg base + V2M SIS .LAGSSOBT); 


B 76v2m sysreg base+V2M SYS FLAGSCLR 标 记 清 除 寄 人 存 器 为 0xXFFFFFFFF， 将 CPU1...n 初 始 局 动 


执行 的 Oe PLANETEN 这 两 个 地 址 由 已 片 实 现时 内 部 的 
Bootrom 程 序 设 定 的 。 质 入 CPU1..n 的 起 始 地 址 都 通过 virt to phys O 转化 为 物理 地 址 ， 因 为 此 时 CPU1...n 
的 MMU 疝 未 开局 。 


比较 天 键 的 or pp 的 成 员 函 数 smp boot secondary() ， 对 于 本 例 而 言 为 
versatile boot secondary ©) ， 瑟 完成 CPU 的 最 终 唤 醒 工 作 ， 如 代 人 了 码 清单 20.10 所 示 。 


代码 清单 20.10 CPU0 通 过 中 晰 唤醒 其 他 CPU 


Orario vVoOIG write pen release(int- val) 

2 { 

pen release = val; 

4smp wmb(); 

osync cache w(&pen release); 

6j 

7 

Sink. versatile Door secondary (unsigned Int Cou, Strucc task struct 1019) 


J 
lOunsigned long timeout; 
11. 
| 2478 
13 * This is really belt and braces; we hold unintended secondary 
14 * CPUs in the holding pen until we're ready for them. However, 


15 * since we haven't sent them a soft interrupt, they shouldn't 
16 * be there. 

d ome 

lo9write pen reélease(cpu logrcal mapicpu)); 

19 

2047 

21 * Send the secondary CPU a soft interrupt, thereby causing 
22 * the boot monitor to read the system wide flags register, 

23 * and branch to the address found there. 


24 */ 

25arch send wakeup ipi mask(cpumask of(cpu)); 
26 

2ltimeout = jiffies + (1 * HZ); 

28while (time before(jiffies, timeout)) { 
29 smp rmb(); 

30 ll (pen release ee L 

31 break; 

32 

33 udelay (10); 

34} 

Cores 

JODerusn en release. e d -ZENOSYO € Ug 
37} 


上 述 代 码 第 18 行 调用 的 write pen release O 会 将 pen release 变 量 设置 为 要 唤醒 的 CPU 核 的 CPU 号 
cpu logical map (cpu) ， 而 后 通过 arch send wakeup ipi mask () 给 要 唤醒 的 CPU 发 IPI 中 断 ， 这 个 时 
US LLL me O Bj EN. B 
vexpress smp prepare cpus () 里 通过 v2m flags set () 设置 的 起 始 地 址 versatile secondary startup 开 始 执 
行 ， 如 果 顺 利 的 话 ， 该 CPU 会 将 原先 为 正 数 的 pen release 写 为 -1， 以 便 CPU0 从 等 待 pen release 成 为 -1 的 循 
环 〈 见 第 28~34 行 ) 中 跳出 。 


versatile secondary startup 实 现 于 archyarnmyplat-versatile/headsmp.S$ 中 ， 是 一 段 汇编 ， 如 代码 清单 20.11 上 所 


7N o 


代码 清单 20.11 被 唤醒 CPU 的 执行 入 口 


IENTRY(versatile secondary startup) 


2 mrc [Los D 20, CU; CUr 2 
3 and CO, S0, Fo 
4 adr r4, 1f 
o ldmia pa, qx. X6 
6 sub r4, r4, r5 
7 add PO. XO. x4 
Open: lo pl. TE] 
9 cmp ET. XD 
db) bne pen 
11 
12 m 
i * we've been released from the holding pen: secondary stack 
14 * should now contain the SVC stack for this core 
15 i 
16 b secondary startup 
1:3 
18 .align 
1o03 LONG 
20 LOT pen release 


2 LENDPROC (Versatile Secondary Startup) 


上 述 代 码 第 8~10 行 的 循环 是 等 竺 pen_release 区 量 成 为 CPU0 议 置 的 cpu logical map (cpu) , —/KEL 
就 成 立 了 。 第 16 行 则 调用 内 核 通 用 的 secondary startup O 函数 ， 经 过 一 系列 的 初始 化 (如 MMU 等 ) ， 最 
终 新 的 航 唤 醒 的 CPU 将 调用 smp operations 的 Smp secondary init O 成 员 函 数 ， 对 于 本 例 为 
versatile secondary init © ， 如 代 伍 清单 20.12 所 示 。 


代 但 清单 20.12 ”人 航 唤醒 的 CPU 恢复 pen release © 


lvond Versatile Secondary Inii (unsigned ant cpu) 
2d 
3 ad 
* let the primary processor know we're out of the 
5 * pen, then head off into the C entry point 
6 m 
7 write pen release(-1); 
8 


9 
10 * Synchronise with the boot thread. 
11 ay 
12 span. lock(sboot Jock)? 
19 spin unlock(&boot lock); 
14} 


上 述 代 码 第 7 行 会 将 pen telease 与 为 -1， 于 是 CPU0 还 在 执行 的 代码 清单 20.10 里 
versatile boot secondary O 国 数 中 的 如 下 循环 驳 退 出 了 : 


Te DETOJ; TIMEOUT) 1 
smp rmb(); 
Lr (pen release == <1) 
break; 


udelay(10); 


这 样 CPU0 就 知道 目标 CPU 已 经 被 正确 地 唤醒 ， 此 后 CPU0 和 新 唤醒 的 其 他 CPU 各 目 运 行 。 整 个 系统 在 
运行 过 程 中 会 进行 实时 进程 和 正常 进程 的 动态 负载 均衡 。 


图 20.7 总 结 性 地 描述 了 前 文 提 到 的 vexpress smp prepare cpus () 、versatile boot secondary () 、 


write pen release () ~ versatile secondary startup ©) ~ versatile secondary init () 这 些 函 数 的 执行 顺 友 。 


CPUO l CPUI 


T TT 








| 
| 
| 
i vexpress smp prepare cpus() 


— 


WE ELRICPUM versatile secondary startup () 开始 执行 


PE 





LJ versatile boot secondary () 


将 write pen release () 写 为 新 CPU ID 


= 


发 中 断 唤醒 CPUl 


0 退出 WFIl 


versatile secondary statup |) 


p can secondary statup () 
轮 询 等 待 pen_release 为 一 1] | 


versatile secandary init () 











----4 


图 20.7 “CPU0 唤 醒 其 他 CPU 过 程 


CPU 热 插 拔 的 实现 也 是 与 忆 片 相关 的 ， 对 于 VEXPRESS 而 言 ， 实 现 了 smp _ operations 的 cpu die © 成 
Te AL, Blvexpress cpu die O 。 写 会 在 进行 CPUn 的 拔除 操作 时 将 CPUn 投 入 低 功 耗 的 WEFI 状 态 ， 相 关 代 
fA zT arch/arm/mach-vexpress/hotplug.cFH , WRI 520.13 FFR. 


代码 清单 20.13 smp operations 的 cpu die O) 成 员 函 数 案例 


lvord. . ret vexpress cpu die(umsrogned nt Cpu) 

el 

S int spurious - 0; 

4 

5 [> 

6 * we're ready for shutdown now, so do it 

7 ny 

8 cpu enter lowpower(); 

9 platform do lowpower(cpu, &spurious); 

10 

11 is 

12 * bring this CPU back into the world of cache 

LS * coherency, and then restore interrupts 

14 a i 

15 cpu leave lowpower(); 

16 

UNE if (spurious) 

io pr warn("CPUSUu: =u Spurious wakeup calls Xn", cpu, spurious)? 
19 
20statric Inline void platform do lowpower (unsigned int. cpu, int *spurilous) 
21.1 
ie [* 
23 * there 1S no power-control hardware on this platform, so all 
24 * we can do is put the core into WFI; this is safe as the calling 
29 * code will have already disabled interrupts 
26 AU 
24 for (;;) { 
28 wfi(); 
29 
SO if (pen release ==> cpu Logical meap(cpu)) 1 
31 yn 
32 * OK, proper wakeup, we're done 
33 un 
34 break; 
25 j 
36 
29 pe 
38 * Getting here, means that we have come out of WFI without 
39 * having been woken up - this shouldn't happen 

40 5 

41 * Just note it happening - when we're woken, we can report 
42 * its occurrence. 

43 ay 

44 (*spurriocus)J]t; 

45 } 


46} 


CPUn 睡 虐 于 wfi(〉， 之 后 再 人 钦 在 线 的 时 候 ， 叉 会 因为 CPU0 给 它 友 出 的 IPI 而 从 wfi() 函数 返回 继续 
执行 ， 醒 来 时 CPUn 也 判断 “pen release==cpu logical map (cpu) "JE PAIL, VARA RE ZU MEK ASE eB 
CPU0 唤 醒 的 一 次 正 稍 醒 来 。 


20.5 DEBUG LL 和 EARLY PRINTK 的 设置 


在 Linux 局 动 的 早期 ， 探 制 台 驱动 还 没有 投入 运行 。 当 我 们 把 Linux 移 植 到 一 个 新 的 SoC 时 ， 工 程 师 一 
般 非 常 想 在 刚 开 始 束 可 以 执行 printk() 功能 以 跟 躁 调试 局 动 过 程 。 内 核 的 DEBUG LL 和 EARLY PRINTK 
选项 为 我 们 提供 了 这 样 的 支持 ， 而 在 Bootloader 引 导 内 核 执 行 的 bootargs 中 ， 则 和 震 要 使 能 earlyprintk 选 项 。 


为 了 让 DEBUG LL 和 EARLY PRINTK 可 以 运行 ， 在 Linux 内 核 中 需 实现 早期 解压 过 程 打 印 需要 的 
pute OÒ 和 后 续 的 addruart、senduart 和 waituart 等 宏 。 以 CSR SiRFprimall 为 例 ， 相 关 的 代码 实现 于 
arch/arm/include/debug/sirf.S 中 ， 如 代码 清早 20.14 所 示 。 


代码 清单 20.14 DEBUG LL 端口 的 驱动 


ljlüdcroadOgruarrt, tp; £v, tmp 


2ldr\rp, -SIRFSOC UART1 PA BASE @ physical 
3ldr\rv, -SIRFSOC UART1 VA BASE Q0 virtual 
4.endm 


5 

6.mMacrosenduart, rd, rx 

7strNrd, [Nrx, #SIRFSOC_UART TXFIFO DATA] 
8.endm 


l0.macrobusyuart,td,rx 
11.endm 


13.macrowaituart, rd, rx 

141001:ldr\rd, [\rx, #SIRFSOC UART TXFIFO STATUS] 
15tst\rd, #SIRFSOC UART1 TXFIFO EMPTY 

lobegl001b 

17.endm 


这 些 代码 没有 复杂 的 框架 和 中 断 的 支持 ， 只 是 单纯 地 往 UART 的 TXFIFO 寄 存 器 写 要 发 送 的 数据 。 其 
中 的 senduart 完 成 了 往 UART 的 FIFO 丢 打印 字符 的 过 程 。waituart 则 相当 于 一 个 流量 握手 ， 等 待 FIFO 为 空 。 


这 些 宏 最 终 会 被 内 核 的 arch/arm/kernel/debug.S 引 用 。 
而 对 于 本 书 与 vexpress QEMU 对 应 的 实验 平台 而 言 ， 相 应 的 驱动 则 位 于 arch/arm/include/debug/pl01x.S 
中 ， 同 样 是 实现 了 类 似 的 宏 。 


在 配置 内 核 的 时 候 ， 要 进行 正确 的 配置 。 壁 如 ， 对 于 vepress 的 实验 板子 ， 我 们 选择 的 束 是 “Kernel 
low-level debugging port (Use PLO11UARTOat 0x10009000 (V2P-CA9core tile) ) ”， 对 应 的 UART 类 型 为 


PLO1X， 如 图 20.8 所 示 。 


Kernel hacking 
Arrow keys navigate the menu. «Enter» selects submenus ---» (or empty submenus ----). 
Highlighted letters are hotkeys. Pressing «Y» includes, «N» excludes, «M» modularizes features. 
Press <Esc><Esc> to exit, <?> for Help, </> for Search. Legend: [*] built-in [ ] excluded 
«M» module < > module capable 


Sample kernel code ---- 

KGDB: kernel debugger  ---- 

Export kernel pagetable layout to userspace via debugfs 
Filter access to /dev/mem 

Enable stack unwinding support (EXPERIMENTAL) 

verbose user fault messages 

Kernel low-level debugging functions (read help! 

Kernel low-level debugging port (Use PLO11 UARTO at 0x10009000 (V2P-CA9 core 
(0x10009000) Physical base address of debug UART 
(0xf8009000) Virtual base address of debug UART 
[*] Early printk 
[ ] 9n-chip ETM and ETB 
[ ] Write the current PID to the CONTEXTIDR register 
[ ] set loadable kernel module data as NX and text as RO 


< Exit > «Help» «Save» < Load > 





图 20.8 ”配置 DEBUG LL 的 端口 
arch/arm/Kconfig.debug TR i5 H J^ BJ RO ELE EX jw. HY arch/arm/include/debug/xxx.S, Ef: 


config DEBUG LL INCLUDE 


string 

default "debug/8250.S" if DEBUG LL UART 8250 || DEBUG UART 8250 

default "debug/pl01x.S" if DEBUG LL UART PLO1X || DEBUG UART PLOIX 
derault “debug/sirit.,S" af DEBUG SIRFPRIMA2 UARTI1 || DEBUG SIRFMARCO UARTI 


上 述 配置 选项 对 应 的 CONFIG DEBUG LL INCLUDE 这 个 宏 会 被 内 核 的 
arch/arm/boot/compressed/debug.S. arch/arm/boot/compressed/head.S. arch/arm/kernel/debug.S fil 
arch/arm/kernel/head.S LJ include CONFIG DEBUG LL INCLUDE”* 的 形式 引用 。 


20.6 GPIOJEZJJ 


在 drivers/gpio 下 实现 了 通用 的 基于 gpiolib 的 GPIO 驱 动 ， 其 中 定义 了 一 个 通用 的 用 于 描述 底层 GPIO 控 
制 器 的 gpio chip 结 构 体 ， 并 要 求 具体 的 SoC 实 现 gpio _ chip 结构 体 的 成 员 函 数 ， 最 后 通过 gpiochip add () 

注册 gpio_chip。GPIO 驱 动 可 以 存在 于 drivers/gpio 目 录 中 ， 但 是 在 GPIO 兼 有 多 种 功能 有 旦 需 要 复杂 配置 的 情 
ML 下，GPIO 的 驱动 部 分 往往 直接 移 到 drivers/pinctrl 目 录 下 并 连同 pinmux 一 起 实现 ， 而 不 存在 于 drivers/gpio 


目录 中 。 


spio_chip 结 构 体 封装 了 底层 硬件 的 GPIO enable () /disable O 等 操作 ， 它 的 定义 如 代码 清单 20.1$ 所 


ZN o 


代码 清单 20.1$ gpio chip 结 构 体 


leStrucec gpPlo Chip I 


2 const char *label; 

3 struct device *dev; 

4 struct module *owner; 

E 

6 Int (*reguest) Struct gplo Chip “chip; 

7 unsigned offset); 

8 void (^Irees)Tstruct Sgpio chip. “CHIP; 

9 unsigned offset); 

10 

Li LITE (^directron Input) (Struct gpioc chip “chip; 
12 unsigned offset); 

13 Int “Get! (struct Cole Chip “cap, 

14 unsigned offset); 

Lo Int (OIISCLIOM OHUtput)istrucE gple CNIP *ODID 
16 unsigned offset, int value); 
17 int ("Set debounce) (Struct grio chip *chip, 

18 unsigned offset, unsigned debounce); 
19 
20 VOLO (Sec) (Seruce pO chap *Chip, 
21 unsigned offset, int value); 
22 
23 int ("CO IrXg)iStruct gpio OhLip- “ONID; 
24 unsigned offset); 
25 
26 void (^dbg show) (struct seq file "g; 
21 struct gpio Chip *ORLID)S 
28 int base; 
29 ulo nocplo: 
30 const char *const *names; 
2d. unsigned can sleeps 
e unsigned exported:1; 
33 

34$£if defined (CONFIG OF GPIO) 

a5 J^ 

0 * Ir CONTIG OF 26 enabled, chen all GPIO concrrollers desorrpeo Tn The 
3d * device tree automatically may have an OF translation 

38 RJ 

39 Struct devroe mode of node; 

40 Int ot gpro n cells; 

41 ime ("OI klare) (aLr po Chip. "go, 

42 const SLDUCcL Or phgndle args *"gbEIOSpec,. u22 *ilags) >; 
A3#endif 

44}; 


这 层 封装 具体 的 要 用 到 GPIO 的 设备 驱动 都 使 用 通用 的 GPIO API 来 操作 GPIO， 这 些 API 主 


要 用 于 GPIO 的 申请 、 释 放 和 设置 : 


ine BLO pequestiunsigned gplo, Const char *label); 
void gpio Lree(unslgned Jgplo); 


int gplo direction nc unsigned gpi); 
int gpio direction output(unslgned dgpio. int value); 
int gpio set debounce(unsigned gpio, unsigned debounce); 
int gpio get value cansleep(unsigned gpio); 
VOLO gpio Set value cansleep(unsigned gpio, ant value); 
LIB Sgpro- request one(unsrghed.gpro, unsrogned tong flags, cons. char "label; 
Int. gplo request array(const SLrUCt gplo “array, Size t Num); 
VOLO ODIO free array(const Strüct gpro “array, Size c Imm); 
int dev OPLO vequest(struct device “dev, Unsigned Jgpao, const char * label); 
Le. devm goo. request one(strucc device "dev, Unsigned. gpio, 
unsigned long flags, const char *label); 
võid devm gpio free(struct device "dev, unsigned inb gprio); 


YER: 内核 中 针对 内 存 、IRQ、 时 钟 、GPIO、pinctrl、Regulator 都 有 以 devm 开头 的 API， 使 用 这 部 分 
API 的 时 候 ， 内 核 会 有 类 似 于 Java 的 资源 目 动 回收 机 制 ， 因 此 在 代码 中 进行 出 错 处 理 时 ， 无 须 释 放 相 天 的 
资源 。 


对 于 GPIO 而 言 ， 特 别 值 得 一 提 的 是 ， 内 核 会 创建 /sys 广 点 /sys/class/gpio/gpioN/， 退 过 它 我 们 可 以 echo 
值 从 而 改变 GPIO 的 方 同 、 设 置 并 获取 GPIO 的 值 。 


在 拥有 设备 树 文 持 的 情况 下 ， 我 们 可 以 通过 设备 树 来 摘 述 某 GPIO 控 制 右 提供 的 GPIO 引 脚 补 其 体 设 备 
使 用 的 情况 。 在 GPIO 控 制 妖 对 应 的 节点 中 ， 需 定义 #gpio-cells 和 gpio-controller 属 性 ， 上 有 具体 的 设备 节点 则 退 
过 xxx-gpios 属 性 来 引用 GPIO 控 制 器 节点 及 GPIO 引 脚 。 


"üIVEXPRESS B Eix DT X. ?Farch/arm/boot/dts/vexpress-v2m.dtsi H A 4 P GPIOF ill z& 13 A: 


vam sysreg: sysreg800000 { 
compatible = "arm,vexpress-sysreg"; 
reg = «0x00000 0x1000»; 
golD-COnLtroller: 
#gpio-cells = «2»; 


VEXPRESS E KIR E HIMMC3T326 til 23-2 f H] VH EA GPIOSZ hill ee DCHJGPIO S] Hal, UU EET 


mmci(2005000 77 4 1 ci 38 xL -gpios/& TE 5] HGPIO: 


mmci(05000 { 
compatible = "arm,pl1180", "arm,primecell"; 
reg = «0x05000 Ox1l000>; 
interrupts = «9 10»; 
cd-gpros = uvam svsreg U U>; 
wp-gpios = «&v2m sysreg 1 0»; 


其 中 的 cd-gpios 用 于 SD/MMC 卡 的 探测 ， 而 wp-gpios 用 于 写 保护 ，MMC 主 机 控制 器 驱动 会 通过 如 下 方 
法 获取 这 两 个 GPIO， 评 见于 drivers/mmc/host/mmci.c: 


grali vold me dt populate generic pdataí(struct device node *nBp, 
Struct mox platform data *~pdata) 


{ 


pdata->gpio wp 
pdata->gpio cd 


Or get named ocean "WDp-gPLOS",. U)? 
Or get named Opto (np, "Odgpios', 0); 


20.7  pinctrlJXzj]J 


许多 SoC 内 部 都 包含 pin 控 制 希 ， 通 过 pin 控 制 右 的 寄存 二 ， 我 们 可 以 配置 一 个 或 者 一 组 引 脚 的 功能 和 
特性 。 在 软件 上 ，Linux 内 核 的 pinctrl 驱 动 可 以 操作 pin 控 制 闫 为 我 们 完成 如 下 工作 : 


枚 举 并 且 命 名 pin 控 制 大 可 控制 的 所 有 引 脚 

-提供 引 脚 复 用 的 能 

-提供 配置 引 脚 的 能 力 ， 如 驱动 能 力 、 上 拉 下 拉 、 开 涯 (Open Drain) 等 。 
1.pinctrl 和 引 脚 


在 特定 SoC 的 pinct 张 动 中 ， 我 们 需要 定义 引 脚 。 假 改 有 一 个 PGA 封 闻 的 公斤 的 引 脚 排 布 如 多 20.9 所 


小。 


图 20.9 ”一 个 PGA 封 净 的 他 放 的 引 脚 排 布 


在 pinctrl 驱 动 初 始 化 的 时 候 ， 需 要 问 pinctrl 子 系统 注册 一 个 pinctrl descfüXN fj. ATH AT AY pins Ji vi P 
包 舍 所 有 引 脚 的 列表 。 可 以 通过 代码 清单 20.16 的 方法 来 注册 这 个 pin 控 制 艺 并 命名 它 的 所 有 引 脚 。 


代码 清单 20.16 ”pinctr1 引 脚 描 述 


l#include «linux/pinctrl/pinctrl.h» 


2 

SCOnSE Struct prnctrl pin. desc Poo panel] s 
4 PLNGETRD -PIN(O; "“AG™), 

S PINGT RE PIN (1; UST 

6 PINCTRE PLIN(Z "C5"), 

7 us 

8 PLINGOTRE PIN(6l, "REL" 

9 PINCTRE PLNIO2, "GL" 

10 PINCTRE PLNQGOS, "Hi", 

11) 

ee 

Losta tIio Struce pincer. desc foo Cesc = 1 

14 .name = "foo", 

15 pins = 100 pins, 

16 -npins = ARRAY SIZE(foo pins), 

1:7 .maxpin = 63, 

1.9 .owner = THIS MODULE, 

19] 
20 
21int init foo probe (void) 
224 
23 Struct PLINCLEL dev “perl; 
24 
Zo POLL e princbrli reqisrer (soo desc; SPARENT-, NULL); 
26 if (15 BRR(DOLL)) 
21 pr err("could not register foo pin driver An"); 


pinctrli® 


在 pinctrl 子 系统 中 ， 支 持 将 一 组 引 脚 绑 定 为 同一 功能 。 假 设 10，8，16，24} 这 一 
能 ， 而 124，25} 这 一 
组 实现 pinctrl ops 3] EV, 93 ERI 
真 充 到 前 文 pinctrl desc 的 实例 foo desc 中， 如 代码 清单 20.17 所 示 。 


pinctrl ops} 


2.5| 脚 组 (Pin Group? 


需要 体现 这 个 分 组 关系 ， 并 且 为 这 
数 get groups count () ~ get group name (2 和 get group pins () ， 


组 引 脚 承担 IC 接口 功能 。 在 驱动 的 代码 中 ， 


将 


代码 清单 20.17 pinctrl 驱 动 对 引 脚 分 组 


1#inelude «ILinüux/plnctrl/pincbEL,h- 


2 

OStbuct 

4 

D 

6 

7); 

8 

9static 
lO0sStatic 
11 
l28Static 
Lo 


Zo 


39 


46static 
47 

48 

49 

DO}; 

51 

ga 
53static 


get groups count (O PKIN PKI 
get group name () 则 提供 引 脚 组 的 名 字 ，get group pins ©) 提供 引 脚 组 的 引 脚 表 。 
重用 API 使 能 


foo group { 

const char *name; 

const unsigned int *pins; 
cone Unssogned mum prn; 


CONSL Unsigned TINE Spi0 prusll = { Up pp be, 24 1 
Const Unsigned zt 1200. pans[] = 4 24, Z9. J7 
Const struct foo group foo groups] = 4 
{ 
" spi 0 grp" , 


.name = 
Jprns = Spi prins; 
.num pins = ARRAY SIZE(spi0 pins), 


name = "1200. grip" 
{LNs = 1260: pins, 
num pins = ARRAY SIZs501200 pins), 


int $00 get groups COUnE{SLEUCE prnoctrl dev *pcrldey) 

return ARRAY LO LO groups); 

const. Char *100 get Group nametstruct pincrrl dev “pclldey, 
unsigned selector) 


return foo groups[selector].name; 


Lime 100 get Group prius(struct pinctrl dev ^potldev, Unsigned Selector, 
Unsigned ** const pins; 
unsrgned ^ const num pinus) 


spins = (unsigned *) foo: groupsS[selector].prone; 


^num pans = foo groupslselectorl.num pins; 
return 0; 


SLCBOL pincer! Cos $00 pOtrtl Ops = 1 
get groupo Count = i00 get groups county 
.get group name = foo get group name, 
get group Pins = Too get group pins, 


SLEIUDL Pinctrl dese 100 dese = 4 


pOLIODS = 4100 POLPIL OPO; 


数 用 于 告知 pinctrl 子 系统 该 SoC 中 合法 的 被 选 引 脚 组 有 多 少 个 ， 而 
在 设备 驱动 调用 


一 组 引 脚 的 对 应 功能 时 ，pinctrl 子 系统 的 核心 层 会 调用 上 述 回 调 函 数 。 


组 引 脚 承担 SPI 的 功 


分 


3. 引 脚 配置 


设备 驱动 有 时 候 需 要 配 症 引 脚 ， 艾 如 可 能 把 引 脚 设 症 为 高 阻 或 者 三 在 《达到 类 似 断 连 引 脚 的 效 末 ) ， 
或 过 过 条 阻 值 将 外 脚 上 拉 / 下 拉 以 确保 上 默认 状态 下 引 脚 的 电 平 状态 。 在 驱动 中 可 以 目 定 义 相 应 板 级 引 脚 配 
BAPTA, SPO Beh Say Ay eI BA aR SI A Ei: 


#include <linux/pinctrl/consumer.h> 


ret = Pill coL19g seti" rooedgev", "EOO GPIO FIN", PLATFORM X PULL UP); 


其 中 的 PLATFORM X PULL UP 由 特定 的 pinctrl 驱 动 定义 。 在 特定 的 pinctrl 驱 动 中 ， 需 要 实现 完成 这 些 配 


置 所 需要 的 回调 函数 (pinctrl desc 的 confopgs 成 员 函 数 ) ， 如 代码 清早 20.18 所 示 。 


代码 清单 20.18 引 脚 的 配置 


Ifrsclude «linux/pinctrl/ornoctrel.h- 
2#include <linux/pinctrl/pinconf.h> 


3S#include "platform x pindefs.h" 
4 
SStatic Int 100 prn OOnflg gebt(struct pIncurl dew *pouLlgoev, 
6 unsigned offset, 
] unsigned long *config) 
8 { 
9 Struct My CODDLtYDe cont; 
10 
uw . Find setting for pin @ offset ... 
12 
E *config = (unsigned long) conf; 
14} 
1.5 
LOSCALIO Int LOO pig OODILIg Sevietruce prnotrl dev *DOLlOSV, 
17 unsigned offset, 
18 unsigned long config) 
1:91 
20 Se My COnLLYpS "COLL = (Suruct My CODLCYDSe ~) OGODELS; 
21l 
22 switch (conf) 4 
2o case PLATFORM X PULL UP: 
24 eT 
2 ) 
26 ) 
21) 
28 
2OSLALIO LNL .Too0 Pin Coniig -Group get (REUC punetrml dey *DOULdeV, 
30 unsigned selector, 
e unsigned long *config) 
324 
3 3 
34} 
2 
9osLtatrc int £00 pain Contig group sec (Scruce pincrrl dev "DCULOSV; 
2 unsigned selector, 
38 unsigned long config) 
3 
40 
41] 
42 
dostaio -struci prlnconr Ops foo poonr ops = 1 
44 Pin contig get = too pid Config get; 
45 pin CONTIGO Set = TOO pin. Contig Seb; 
46 lm COntig group get = I00 Pin CoOntig.group get, 
47 spin. CONnft9 group. eet = LOO pin Contig Group Ser, 
48 } 
49 
50/* Pin config operations are handled by some pin controller */ 
OLStatic SLLUCl ipincirlL desc foc. desc = 1 
D T€ 
93 .confops = &foo pcont ops, 


其 中 的 pin config group get () ~ pin config group set O 针对 的 是 可 同时 配置 一 个 引 脚 组 的 状态 情况 ， 
而 pin config get ©) ~ pin config set ) 针对 的 则 是 单个 引 脚 的 配置 。 


4. 与 GPIO 子 系统 的 交互 


pinctrl 驱 动 所 履 盖 的 引 脚 可 同时 作为 GPIO 用 ， 内 核 的 GPIO 子 系统 和 pinctrl 子 系统 本 来 是 并 行 工 作 的 ， 
但 是 有 时 候 需 要 交叉 映射 ， 在 这 种 情况 下 ， 需 要 在 pinctrl 驱 动 中 告知 pinctrl 子 系统 核心 屋 GPIO 与 底层 
pinctrl 驱 动 所 管理 的 引 脚 之 间 的 映射 关系 。 假 设 pinctrl 驱 动 中 定义 的 引 脚 32~47 与 gpio_chip 实 例 chip a 的 
GPIO 对 应 ， 引 脚 64~71 与 gpio_chip 实 例 chip b 的 GPIO 对 应 ， 即 映射 关系 为 : 


Chip as 
- GPIO range : [32 .. 47] 
= pin ranges 3 [32 ss 47] 
Chip D 
- GPIO range : [48 .. 55] 
- pin range : [64 .. 71] 


Wi CE XE pinctrl IKa Ep n L8 EA P CASES GPIOW A, aR 20.19BT7R 


代码 清单 20.19 ”GPIO 与 pinctr1 引 脚 的 映射 


lStrucb gpro Chip Chip a; 
28Lruct gpio Chip Chip D? 


dotatie Struct pil1uctrtl gpio range gpio range.a = 4 


E .name - "chip a", 

6 e 0; 

7 .base = 32, 

8 pin base = 22; 

9 npins = 16, 
10 gc = @Chip .a; 
11} 
12 
ee 有 | 
14 .name = "chip b", 

l5 .id = 0 

16 .base = 48 

aly, .pin base = 64, 

18 .npins = 8, 

19 go ee LONI D; 
20} 
2 
224 
z Struct pancurl dev “perl; 
24 m 
Zo Pinctrl add gpro range (pctl, &gplo range a); 
26 pinctrl add gplo range (pctl, &gpio range D)? 
21) 


在 基于 内 核 gpiolib 的 GPIO 驱 动 中 ， 硅 设备 驱动 需 进行 GPIO 申 请 gpio_request〈() 和 释放 
gpio free (O ，GPIO 了 驱动 则 会 调用 pinctrl 子 系统 中 的 pinctrl request gpio ©) 和 pinctrl free gpio © 通用 
API，pinctrl 子 系统 会 查找 申请 的 GPIO 和 引 脚 的 映射 关系 ， 并 确认 引 肢 是否 被 其 他 复 用 功能 所 占用 。 与 
pinctrl 子 系统 通用 层 pinctrl request gpio () 和 pinctrl free gpio © API 对 应 ， 在 底层 的 具体 pinctrl 驱 动 中 ， 


需要 实现 pinmux ops 结 构 体 的 gpio request enable () 和 gpio disable free ©) X ERA. 


除了 gpio request enable () 和 gpio disable free O 成 员 函 数 外 ，pinmux ops 结 构 体 主要 还 用 来 封 痛 


pinmux 功 能 使 能 / 荣 止 的 回调 函数 ， 下 面 可 以 看 到 它 的 更 多 细 市 。 
5.5| WRH (pinmux) 


在 pinctrl 驱 动 中 可 人 处理 引 脚 复 用 ， 它 定义 了 功能 (FUNCTIONS)〉 , Kaa EA BED Be A f Be BET 
禁止 。 各 个 功能 联合 起 来 组 成 一 个 一 维 数 组 ， 辟 如 {spi0，i2c0，mmc0} 束 摘 述 了 3 个 不 同 的 功能 。 


一 个 特定 的 功能 总 是 要 求 由 一 些 引 脚 组 来 完成 ， 引 脚 组 的 数量 可 以 为 1 个 或 者 多 个 。 假 设 对 前 文 所 描 
述 的 PGA 封 装 的 SoC 而 言 ， 引 脚 分 组 如 图 20.10 所 示 。 


假设 fC 功能 由 {A5，B5} 引 脚 组 成 ， 而 在 定义 引 脚 描述 的 pinctrl pin desc 结 构 体 实例 foo pins 的 时 候 ， 
将 它们 的 序号 定义 为 了 {24，25}; 而 SPI 功 能 则 可 以 由 {A8，A7，A6，A5} 和 {G4，G3，G2，G1}， 即 
{0，8，16，24}: 和 {38，46，54，62} 两 个 引 脚 组 完成 ‘注意 在 整个 系统 中 ， 引 脚 组 的 名 字 不 会 午时 ) 。 


据 此 ， 由 功能 和 引 肢 组 的 组 合 束 可 以 决定 一 组 引 脚 在 系统 里 的 作用 ， 因 此 在 设置 对 组 引 脚 的 作用 时 ， 
pinctrl 的 核心 层 会 将 功能 的 序号 以 及 引 脚 组 的 序号 传 圳 给 后 层 pinctrl 驱 动 中 相关 的 回调 函数 。 


a pILÉIBZÉE 


1 -—. 








| 





420.10 ”针对 PGA 封 装 的 SoC 的 引 脚 分 组 


在 整个 系统 中 ， 豫 动 或 板 级 代码 调用 pinmux 相 关 的 API 获 取 引 脚 后 ， 会 形成 一 个 pinctrl、 使 用 引 脚 的 
设备 、 功 能 、 引 脚 组 的 映射 关系 ， 假 设 在 某 电 路 板 上 ， 将 让 spi0 设 备 使 用 pinctrl0 的 fspi0 功 能 以 及 gspi0 引 脚 
组 ， 让 i2c0 设 备 使 用 pinctrl0 的 fi2c0 功 能 和 gi2c0 引 脚 组 ， 我 们 将 得 到 如 下 的 映射 关系 : 


{ 
i'map-spri0", Spi); pinctrld, fsprliU, gspi0},; 
| 
j 


pinctrl 于 系统 的 核心 会 保证 每 个 引 脚 的 排他 性 ， 因 此 一 个 引 脚 如 有 果 已 经 人 被 菜 设 备用 挥 了 ， 而 其 他 的 设 
备 又 申请 该 引 脚 以 行使 其 他 的 功能 或 GPIO， 则 pinctrl 核 心 层 会 让 该 次 申请 失败 。 


在 特定 pinctrl 张 动 中 pinmux 相 天 的 代码 主要 处 理 如 何 使 能 / 荣 止 某 一 {功能 ， 引 脚 组 ;的 组 合 ， 辟 如， 当 
spi0 设 备 申请 pinctrl0 的 fspi0 功 能 和 gspi0 引 脚 组 以 便 将 gspi0 引 脚 组 配置 为 SPI 接 口 时 ， 相 天 的 回调 孙 数 被 组 


织 进 一 个 pinmux ops 结 构 体 中 ， 而 访 结 构 体 的 实例 最 终 成 为 机 文 pinctrl desc 的 pmxops 成 员 ， 如 代码 清单 


20.20 所 示 。 


代码 清单 20.20 pinmux 的 实现 


linc lude eLimnuxpuncUuELDImCUEL:ihe 
2a neluüude «irmus/pirnerl/prcnomux.nm 


3 
AiSLIUCD DOO Group: d 
9 const char *name; 
6 const unsigned int *pins; 
q CONSE. unsigned mus pius; 
9]; 
9 
TOstatie CONnSt uncconedaaspro Vpn tI = gu) ey. Gy. 22-34 
Korati Comet Uno toned. SPIO 1 Omens hi) e x 595 2095-9492 T 
I2ZStstro cOnscb.uneronedq TCO “pins |)! = 吉之 4 Zoe 
ISS lav Lle Conse. Unsigned- mme. pane |i e 360p oL FF 
IZSstatrc Conse. unsigned mmeos pane i] = 1267 D9 17 
[OSDQLIC Conse -INSToned. mmo Spaniel S14 oy ole G24. OS. Dy 
16 
Listal re Const Struct £00 group Too- Groupsl] = A 
18 { 
19 dame = "spn “0 gro"; 
20 由 
24. JUN. EIS = ARRAY SIDAESGSpQRU.O0 pane); 
2 Ey 
23 
24 ene =: "spat dl gre", 
22 ES = Spi0i_1 plns, 
2.0 um prins “> ARBAY.SIZE(SprOÜ lI prine), 
zd by 
28 
29 wane: ec MeO “Grp, 
30 PENS = L260 PINOy 
3l SUM. PINS > -ARRAY Sib (ae 2e)) pans) y 
224 by 
33 
34 aere = Ummeu d grep", 
So pans = mme- pins; 
36 Jum pans = ARRAY SLZR(mmc0 1l. prmes); 
2 by 
SO { 
39 nane -umnmmocU 2 orp; 
40 pins: e MUCO 2 Oris, 
41 Dum Pins = ARRAY SOIZE(QmmcO 2 pins), 
42 ky 
43 
44 lame = ^mmog. 9 grp' 
45 pins 全 IC 5 pins, 
46 inum pans = ARRAY SIZE (MMU Spins), 
2 by 
48}; 
49 
30 
Sdo Gabe, IUe OO. get groups Count (SUrucEe pincurl dev DOCHISY) 
S24 
S return ARRAY -SIZE (100 groups); 
54} 
DO 


DOs tale Const Ghar Tho Cel Group naues rucct. plpossl- dev toc lldev, 


2 unsigned selector) 
991 

2.9 return. Too groups[selector].neme. 

60] 

61 


OZS0al ic Int- LOO get Group- przhneistrüct pincer, dev *potldev, Unsigned selector, 


63 unsigned ** const pins, 

64 Unsigned “CONS. nüm ans) 
65 { 

66 *DLIS = qQunosguedg Uy OG tL oOupSs | Selecuor)|~pins; 
67 snum- Ping =- roo Oroupslselector]|.num pins; 

68 return 0; 

69 } 

70 


TI Sanc serv Paneer Ops OO: (PCr “Ops = 4 


12 get -GPOUDS: Count = Loo JSt. Groups count; 
T3 eget group name -= Too get group name, 

74 get gsoup pins = £90 get Group plns, 
T9l; 


16 


Eb “FOO: Pm TUNG 4 


78 const char *name; 
T9 CONS Char v GOONSC. Doe 
80 const unsigned. num groups; 
91]; 
82 
DSSDOLIC Comse Char 4.009€ SPIO- ‘Groupe ||, =) "Spip 0 gro’, "Spoó bL GET 
CaS valle CONSE Char * cODSt L260 groups] =- "5200-grp'" Jy 
ooo tate Conse Char. ^ ‘cons: mmc: Groups |) = -"mmeo L Grp", '"mmco-2 GIP; 
86 "Eo S grp'* 3 
87 
OOSLaLtlC GOUNSt SLrucL foo pmx fune foo LfunctronsLl =f 
99 { 
90 .name = "spi0", 
2d 4groupse = SPIO groups; 
2 Ium groups — ARRAY SIAZE(SpLO Groups), 
Ja F 
94 
95 shame = "a 260"™, 
96 QQPOUDS-— 2260. groups; 
97 HUM Groups: = ARRAY OIARUDZCU wrOUpe), 
28 by 
99 
100 .name = "mmcO0", 
10.1 groups = mme groups, 
LOZ .num groups = ARRAY SIZE(mmcO groups), 
LOS Er 
104}; 
105 
"ole doo-dget funobsronse ccoumntisotruect ODIDCUEL dev “pculdey) 
10-71 
108 teturn ARRAY SIZE (POO: rLunctronse); 
109 
PLO 
Ileonet car toOo Oot Luame (Struet Pineer!l IeY TCELOGY,. TnSroneo Serector, 
1 23 
113 return TOO Tuncuions |Sselecvor |. name; 
114} 
TES 
lITOSLQGUIC Lb TOO get Groups SEEUuct paneortrlodew “petloev, unsigned: selectoms, 
Ld Const char Const. 705053 
ld UNS toned = Conce Ium groups 
11:93 
E20 "Oroups = LOC: runctronselseleocuor]sgrotups; 
T21 ^nul groups = LOO tunctrons[selector] snum groups; 
T22 return 0; 
1295] 
124 
IZ DEN, X09 renabl e(o Cruci gpciurl-dev-"pothdev, Unsigned Setector, 
IFAS unsigned group) 
12 7 
128 u8 regbit = (1 << selector + group); 
129 
130 writeb((readb(MUX)|regbit), MUX) 
131 return 0; 
Low} 
1:39 
1S4vord foo drsabble(struct pincer) dev *potldev; unsigned selecvor,; 
b35 unsigned group) 
13604 
Lo u8 regbit = (1 << selector + group); 
1:3: 
139 writeb((readb(MUX) & ~(regbit)), MUX) 
140 return 0; 
141} 
142 
l43struct panmux ops foo pmxops = { 
144 set. Tungt rons Count = S00-OeL Tnetrons COUNT 
145 get Tuncutron-name = roo get fname, 
146 get FUNCTION groups 00 0eb groupsy 
147 enable. TOG enable, 
148 disable. = foo disable, 
149}; 
150 
151/* Pinmux operations are handled by some pin controller */ 
lo2SLOaltric OCUS PINGU I dese Too (desc (Y 
152 bus 
154 DOLLODS =; 6100: petri -ops; 
1 .pmxops = &foo pmxops, 
150505 


HA Wpinctrl, TEAS E. LIBE. a ARRAK, n] DA CEA OC EP AE X pinctrl. mapti 
构 体 的 实例 来 展开 ， 如 : 


Statre SLrvet BLnctrl Map... nmecdoua Ma pprno = x 
EXNOMAPSOMUAXCGROUB(QUIOO-212€00'", SINCGIBSL TALE DERAUhI-"DIDOGLCL-f00", NULL; ''35200")75 
); 


义 由 于 1 个 功能 可 由 两 个 不 同 的 引 脚 组 实现 ， 所 以 对 于 同 1 个 功能 可 能 形成 有 两 个 可 选 引 肢 组 的 


pinctrl map: 


Statre SULUCE. Brnctrl map-.- rnrtdauta- Mapping = 1 


人 
人 


其 中 调用 的 PIN MAP MUX GROUP 是 一 个 快捷 安 ， 用 于 赋值 pinctrl map 的 各 个 成 员 : 


"derzne PIN MAP MUX GROUP (dev, stave; 区 本 区 直下) X 
{ X 

.dev name = dev, A 

QD eme = Stace, N 

.type - PIN MAP TYPE MUX GROUP, \ 

“Cer dev name = PICE ly \ 

data <mux = d X 

.group - grp, N 

-Iunctron = tune, \ 

by \ 


当然 ， 这 种 映射 关系 最 好 是 在 设备 树 中 通过 节点 的 属性 进行 ， 有 具体 的 布点 属性 的 定义 方法 依赖 于 县 体 
HJpinctrlJXz/],  fx2*fEpinctrl JXzJ] PiK 3x pinctrl. ops 结 构 体 的 .dt node to map ©) EX oa eR Ze HE Jg EAE SE SE 
映射 表 。 


在 运行 时 ， 我 们 可 以 通过 闫 似 的 API 去 碍 找 并 设置 位 置 A 的 引 脚 组 以 行驶 SPI 接 口 的 功能 : 


人 
SG o ecpenebprr ais 本 > 
和 


或 者 可 以 更 加 简单 地 使 用 : 


人 


石 想 在 运行 时 切换 位 置 A 和 B 的 引 肢 组 以 行使 SPI 的 接口 功能 ， 代 人 码 结 构 类 似 清单 20.21 所 示 。 


代码 清单 20.21 pinctrl lookup state ©) 和 pinctrl select stat ©) 


LO DT Oe) 

Zu 

2 fe epu Sy 

4 B= devm punetblgetosdevulce 

9 LI (TS ERRIPI) 

6 TE 

7 

8 Si 
9 DEL ERR 
EO 
11 
12 S2 = pauBnoPElLl JooRup Statelboo--cp.  ISplOOposcb*); 


13 if (IS ERR(s2)) 


TT LOO. Swrech() 

18 { 

19 L= Enable on POS Peon: A *J 

20 和 全 直人 
21 if (ret « 0) 


26 yw Enable On posjtion, B. */ 
21 rebos peuctrl Select oitsbets217 
29 if (ret < 0) 


对 于 "default" 状 态 下 的 引 肢 配置， 驱动 一 般 不 需要 完成 devm pinctrl get select (dev, "default") HY Val 
用 。 壁 如 对 于 arch/arm/boot/dts/prima2-evb.dts 中 的 如 下 引 脚 组 : 


peri-iobg { 
uart8b0060000 { 
pinctri-names = "default"; 
purncebtrre0 = —cuart | plns az; 
); 
spi@bO00d0000 { 
pinctrl-names = "default"; 
pineurl-0 = SSSDS0 pins d 
bi 
spi@b0170000 4 
pinctrl-names = "default"; 
pinourbled S CDi pins 3 


由 于 pinctrl-names 都 是 "default" 的 ， 所 以 pinctrl 核 实际 会 目 动 做 类 似 


deym pinctrl get select (dev, "default") 的 操作 。 


20.8 ”时 钟 驱动 


在 一 个 SoC 中 ， 铝 振 、PLL、 张 动 和 门 等 会 形成 一 个 时 钟 树 形 结构 ， 在 Linux 2.6 中 ， 也 存 有 
clk get rate C) ~ clk set rate () ~ clk get parent () ~ clk set parent O 等 通用 API， 但 是 这 些 API 由 每 
个 SoC 音 独 实现 ， 而 且 各 个 SoC 俩 应 商 在 实现 方面 的 兰 开 很 大 ， 于 是 凡 核 增加 了 一 个 新 的 通用 时 钟 框 架 以 
解决 这 个 人 雄 厂 化 问题 。 之 所 以 称 为 通用 时 钟 ， 是 因为 这 个 通用 主要 体现 在 : 


10 统一 的 clk 结 构 体 ， 统 一 的 定义 于 clk.h 中 的 clk API， 这 些 API 会 调用 统一 的 clk ops 中 的 回调 函数 ; 
这 个 统一 的 ck 结构 体 的 定义 如 代码 清 蛙 20.22 所 示 。 


代码 清单 20.22 clk 结构 体 


lovcrucL clk 1 


2 conet dhar 

3 const SLIUCL Clk ops 
4 Struct. cik hw 

9 char 

6 Struct elk 

7 Struct CLk 

8 struct hlrirst head 

9 了 node 
1.9 
11} 


*name; 

“ODS; 

*hw; 

"*parent names; 
"S"DOEGILS. 
*parent; 
children; 

child node; 


其 中 第 3 行 的 clk ops 定 义 是 关于 时 钟 使 能 、 禁 止 、 计 算 频 率 等 的 操作 集 ， 定 义 如 代码 清单 20.23 所 示 。 


*prepare) d (struct cik hw *nDw)y 
*UNPPSPpare) (STrUCE Oik hw «DW 
Seneole). (Struce Clk hw “hw); 
^disabbie)(sStrHoL Clk bw *hw) 7 
is enabled) (struct clk hw *hw); 
regalo Tate) (Struct CLK uw “hw, 
unsigned long parent Trace); 
round rate) (struct clk hw *hw, unsigned long, 
unsigned long *); 


大 
大 


^set parent) (struct clk hw *hw, us index); 
*get parent) (struct clk hw *hw); 

"set Dace) (oL ruc Clk mw *hw, unsigned Long); 
“Ini (Struct Clk hw hw)? 


代码 清单 20.23 clk ops 结 构 体 
LStSUucL CLE Ops 4 

> int ( 
b void ( 
4 int ( 
5 varid ( 
6 Ine ( 
7 unsigned long ( 
8 

9 long ( 
LO 
11 int ( 
12 u8 ( 
13 ime ( 
14 void ( 
13 


2) 对 具体 的 SoC 如 何 去 实现 针对 上 自己 SoC 的 ck 驱动 ， 如 何 提供 便 件 特定 的 回调 函数 的 方法 也 进行 了 


统一 。 


在 代 人 码 清 蛙 20.22 这 个 退 用 的 ck 结构 体 中 ， 第 4 行 的 clk_hw 古 联系 clk_ops 中 国 调 函数 和 其 体 便 件 细 届 的 
纽 市 ，clk_hw 中 只 包 人 通用 时 钟 结构 体 的 指针 以 及 具体 硬件 的 init 数 据 ， 如 代码 清单 20.24 所 示 。 


代码 清单 20.24 


lStruout Clk hw d 


clk hw 结 构 体 


2 struct clk *cLk; 
Const Struct elk amit Geta MEDIE 


其 中 的 clk_init_data 包 仿 了 具体 时 钟 的 名 称 、 可 能 的 父 级 时 钟 的 名 称 列表 parent_names、 可 能 的 父 级 时 钟 数 
num parents 等 ， 实 际 上 这 些 名 称 的 匹配 对 建立 时 钟 间 的 父子 关系 功 不 可 没 ， 如 代码 清单 20.25 所 示 。 


代码 清单 20.2$ clk init data 结 构 体 


上 LEUCL clk init Gata 1 


2 const char *name; 

5 Const Struct CLK Ops “Oe: 

4 CONSE char **parent names; 
2 u8 num parents; 

6 unsigned long flags; 

7); 


Acl oto FE BI A AS Fr ell BG] P] D FEL 73: 
clk enable (clk) ; "*clk-»ops-»enable (clk->hw) ; 


通用 的 clk API CZHclk enable) 在 调用 撒 层 clk 绪 构 体 的 clk_ops 成 员 函 数 《〈 如 clk->ops->enable) IY, 4 
将 clk->hw 传 递 过 去 。 


一 般 和 在 具体 的 张 动 中 会 定义 针对 特定 ck《“ 如 foo) 的 结构 体 ， 访 结构 体 中 包 仿 clk_hw 成 员 以 及 便 件 私 
HUS: 


struct CLE Too 4 
struct clk hw hw; 
. hardware specific data goes here ... 


FÆ Xto clk foo O 宏 ， 以 便 退 过 clk hw3*HXclk foo: 


#define to clk foo( hw) container of( hw, struct clk foo, hw) 


在 针对 clk foo 的 clk ops 的 回调 函数 中 ， 我 们 便 可 以 通过 clk hw 和 to clk foo 了 最 终 获 得 便 件 私有 数据 ， 
并 访问 硬件 谈 写 寄存 器 以 改变 时 钟 的 状态 : 


Struck CLK Ops Clk LOO OPE 1 
Chnabie = &clk foo enable; 
.disable = &olk foo disable 
}; 
int. Clk foo enable(Struce CLE hw *nw) 
{ 
SLCEUCL CLK: 100 91007 
foo = to clk foo (hw) ; 
/* 访问 硬件 读 写 寄存 器 以 改变 时 钟 的 状态 * / 


return 0; 


在 具体 的 ck 驱动 中 ， 需 要 退 过 clk register O 以 及 它 的 变 体 注册 硬件 上 所 有 的 clk， 通 过 


Y 


clk register clkdev () 注册 clk 的 一 个 lookup 《这 样 可 以 通过 con id 或 者 dev_ id 字符 串 寻 找到 这 个 clk) ， 这 
两 个 函数 的 原型 为 : 


Struct Clk “CLE regrsterisLtrucLt device “dev, SLrucE Clk hw ARW)? 
lnc Clk regio ler OCLKdevistrucL Clk *Clk, Conse Char con 1G, 
Const Char Tomy Tmt, xax) 


另外 ， 针 对 不 同 的 clk 类 型 “如 固定 频率 的 clk、clk 门 、clk 驱 动 等 ) ，clk 子 系统 又 提供 了 几 个 快捷 函数 
以 完成 clk register ) 的 过 程 : 


Struct clk reik veguster fixed rate (struct. device “dev; Const Char “nance, 
const char "parent name, unsigned. long flags, 
unsigned long fixed rate); 

Seruce Clk Wolk @eCuster gaten truco device “dev, Conse Char “nae, 
const Char “parent name, unsigned long flags, 
void | iomem *reg, u8 bit idx, 
us GLK gate tiage, SDEIDLLOOK C *21095)7 

Sseruce Clk Solik register drivrder(struct device: “deyv; const char "name, 
Const char *parent name, unsigned Long flags, 
void | iomem *reg, u8 shift, u8 width, 
us Clk divider rlagse, Spinlock t *Lock); 


Cdrivers/clk/clk-prima2.c 为 例 ， 与 该 驱动 对 应 的 心 厂 SiRFprimall 的 外 围 接 了 一 个 26MHz 的 品 振 和 一 个 
32.768kHz 的 RTC 铝 振 ， 在 26MHz 品 振 的 后 面 又 有 3 个 PLL， 当 然 PLEL 后 面 又 接 了 更 多 的 clk 贡 点 ， 则 它 的 相 
AUD JA nig 8.20.26 PTZR -o 


代码 清单 20.26 clk 张 动 案例 


Static. unsigned long PLL clk recato rote(struct clk hw “hw, 
2unsigned long parent rate) 

o 

Junsigned long fin = parent rate; 

OSLPUCC CLK pil, clk =- CO PLILOCLk (aw) 7 

On 

p 

8 
es 
l0unsrgned Long parent race) 
Ili 
12.. 
13) 
14 
losStqgtro ant pid Clk Set rate(sLrPuct cle nw hy Unsigned Long trare; 
lounsigned long parent rate) 


17í( 

Wos 

19) 

20 

2lStaLre Struct. GLK ops SUO DLL ops = 1 
22«recalc rare = pli oclk reocabo rate, 
ZoO«rOUNnd. tate = ILL Clk. round. rave, 

Lessee Lave = pli, Clk Seb rale; 

25]; 

26 

Zistalie Cons” Char DLL Clk Parentesl) = 4 

20 OSC, 

29]; 

30 

SUSDSLLIC ptruu Clk init data Cik DLL INIL = 4 
32.name = "p111", 

352005 = &SUtO pops, 

Sd.parent Hames = pll cle parents; 

304 0UM Parents. = ARRAY SLAB(pll clk parente); 
36}; 

37 

SOBDQLIC Struct Clk amit dala Clk PLL- IMLL = 4 
39.name = "p112", 


AU.Ope = &stda PLL opsy 


fleparent Names = pli clk parents, 
d2 nüm parents = ARRAY SIZE (pill clk parents), 


43 
44 


ASSCaACLC SULIUCL CLK InLe data clk pills Init = 4 


46.name = "pll3", 
Li Ops = Cold pill. ops, 


48.parent names = plL clk parents, 
donum parents = ARRAY SLAEb(pll clk parents), 


Oh 
51 


OeSLatrc ebrUOCt elk pli olk PLIL = { 
DO.Pegors e SIRESOOU CURC Phil OFGU, 


b4.hw = { 


95 sAn = Otk PELL InI; 


svota 1G Ssuruce CLE PLL clk. pll2 = 1 
oU.TregoLs = SIRESOC CLERC PLL- CEGO; 


61.hw = { 


62 UDLG = SOLE pill INL; 


63], 


OSa Cio SLEUGL CIK PLL GLK pli = 1 
O.regors = OIBESOC ChKC Philo Creu, 


68.hw = { 


69 sini. = €cLE PLIO Init, 


pecs | 


76/* These are always available (RTC and 26MHz OSC) */ 
TICLE = CLK register fixed raLe(QNULL, “ere”, NUL, 
78 CLE Io ROOT; 227605) % 


79BUG ON(!clk); 


gÜcGLIK = Clk register rIixeud race(NULL, "oso" NULL, 
81 CLK IS ROOT? 2000000077 


82BUG ON(!clk); 
83 


84clk = clk register (NULL, 


85BUG ON(!clk); 


ooclk = clk register (NULL, 


87BUG ON(!clk); 


SUCIK = clk register (NULL; 


89BUG ON(!clk); 
90.. 
91} 


gclk plll.hw); 
&clk pll2.hw); 


SOL: pLLSDmw) 


太 外 ， 目 前 内 核 更 加 倡导 的 方法 是 通过 设备 树 来 摘 述 电路 板 上 的 时 钟 树 ， 以 及 时 钟 和 议 备 之 间 的 绑 定 
关系 。 通 争 我 们 需要 在 clk 控 制 右 的 节点 中 定义 #clock-cells 属 性 ， 并 且 在 ck 驱动 中 通过 
of clk add provider © 注册 时 钟 控 制 闫 为 一 个 时 钟 树 的 提供 者 (Provider) ， 并 建立 系统 中 各 个 时 钟 和 过 


JRR, U: 


sys 
security 
dsp 


gps 
mf 


在 每 个 具体 的 设备 中 ， 
使 用 的 时 钟 的 索引 ， 如 : 


e o OO =) OU 性 ON 上 OO 


对 应 的 .dts 节 点 上 的 clocks=<&clks index> 属 性 指向 其 引用 的 clk 控 制 器 节点 以 及 


gps@a8010000 ( 
compatible = "sirf,prima2-gps"; 
reg = «0xa8010000 0x10000»; 
interrupts = «7»; 
Clocks = <&clks 9>; 


要 特别 强调 的 是 ， 在 具体 的 设备 驱动 中 ， 一 定 要 通过 通用 clk API 来 操作 所 有 的 时 钟 ， 而 不 要 直接 通过 
读 写 clk 控 制 器 的 寄存 器 来 进行 ， 这 些 API 包 括 ， 


SULuCct, Clik "ole Gerot ruc evLce "dev. CONSE Char EG 
euruct SLk T0887 clk getistrugct device “dev, Const Tnear ung) 
Inu cClk enable (tote cli ob 

Ine GER prepareqebruct ls FOLE)? 

WOlO Clk- unpre rareo CrO Clk "OLEO 
上 

Statre ile: iG CLR prepare eneb e(scruce clk Folk; 
Stable: rnlzne.vord clk drssoDle unprepare(struct elk. Wolk)? 
unsigned dong elk get race (seruce Clk ole 

tie ‘Clk Set spate. (Struce, clk “elk, Une roned Long tae), 
SETUCE ‘Clik. “Clk Get parenclstruce. CLE COE 

Me ‘Clk Gee Parene(scruce CLR “clk; TEU. Clk Spaces 


值得 一 提 的 是 ， 名 称 中 含有 prepare、unprepare 字 符 串 的 API 是 内 核 后 来 才 加 入 的 ， 过 去 只 有 
clk enable (2 和 clk disable () 。 只 有 clk enable (Ù) 和 clk disable O 带 来 的 问题 是 ， 有 时 候 ， 某 些 人 硬件 
使 能 /禁止 时 钟 可 能 会 引起 睡眠 以 使 得 使 能 /禁止 不 能 在 原子 上 下 文 进 行 。 加 上 prepare 后 ， 把 过 去 的 
clk enable O 分 解 成 不 可 在 原子 上 下 文 调 用 的 clk prepare O (该 函数 可 能 睡眠 ) 和 可 以 在 原子 上 下 文 调 
用 的 clk_enable () 。 而 clk prepare enable C2 则 同时 完成 准备 和 使 能 的 工作 ， 当 然 也 只 能 在 可 能 睡眠 的 上 
下 文 调 用 该 API。 


20.9 dmaengineJlXzjJ 


dmaenginezé — SiM HJJDMAJBRZ/HEZS, TATE ZJ-H. Vs fs HHDMAGEDGB IP) V e UJ DE S — S6 HJ 


ry Hie X. Y FRHATRBJDMAZÉ mI BS SEX APITIIZI TE» 


对 于 使 用 DMA 引 擎 的 设备 驱动 而 言 ， 发 起 DMA 传 输 的 过 程 变 得 整洁 了 ， 如 在 sound 子 系统 的 
sound/soc/soc-dmaengine-pcm.c 中 ， 会 使 用 dmaengine 进 行 周 期 性 的 DMA 传 输 ， 相 关 的 代码 如 清单 20.27 所 


小。 


代码 清单 20.27 dmaengine API 的 使 用 


lIsrtatrio rnt dmaengine pcm prepare and sSubmzt(struc. snd. pom.substream *subscream) 


Z1 

3 Struct dmaengrine pom runtime data prcd = .substream to pried (subsitredm); 
4 struct dna Chan “Chan = preto--ome cnan; 

a struct dma async ex -Cescriplor "desc; 

6 enum dma transfer direction direction; 

I unsigned long tlags = DMA CIRL ACK? 

8 

9 

10 desc = dmaengine prep dma cyclic(chan, 

11 substream--runtime->dma. addr, 

eZ sno pom Lib Duller bytes (substream), 

1.9 snd pcm. Lib period bytesisubDstrean), direction, tlags).; 
14... 

15 desc->callback = dmaengine pcm dma complete; 

16 OSeSsCce7Call back param = substreamn; 

L prtd->cookie = dmaengine submit (desc); 

18} 

1.9 
20int snd dmaengine pcm trigger (struct snd pcm substream *substream, int cmd) 
24.1 
252 Struct. dmaengine pcm runtime data *prtd = substréam to prtd(substream); 
223 int ret; 
24 switch (cmd) { 
E case SNDRV PCM TRIGGER SILARDI 
26 ret = dmaengine pcm prepare and submit (substream) ; 
Z1 " 
28 dma async issue pending(prtd-»dma chan); 
29 break; 

30 case SNDRV PCM TRIGGER RESUME: 

oi case SNDRV PCM TRIGGER PAUSE RELEASE: 

32 dmaengine resume(prtd-»dma chan); 

ce. break; 

34 

35] 


这 个 过 程 可 分 为 4 步 : 


1) 通过 dmaengine prep dma xxx () 初始 化 一 个 具体 的 DMA 传 输 摘 述 


FT 《本 例 中 为 结构 体 


dma async tx_descriptor 的 实例 desc， 本 例 是 一 个 周期 性 DMA， 因 此 第 10 行 调用 的 是 


dmaengine prep dma cyclic () ) 。 


2) 通过 dmaengine submit O KHZ Admaengine KANN fiy BA 9] B171T) . 


3) 在 需要 传输 的 时 候 通 过 类 似 dma async issue pending O 的 调用 局 动 对 应 DMA 通 道上 的 传输 《〈 见 


第 28 行 ) 。 


4) DMA 的 完成 ， 或 者 周期 性 DMA 完 成 了 一 个 周期 ， 都 会 引 友 DMA 传 输 摘 述 符 的 完成 回调 函数 被 调 
用 (本 例 中 的 赋值 在 第 15 行 ， 对 应 的 回调 函数 是 dmaengine pem dma complete) . 


也 束 古 不 官 具体 便 件 的 DMA 控 制 需 是 如 何 实 现 的 ， 在 软件 意义 上 部 抽象 为 了 设置 DMA 插 述 从 、 将 
DMA 插 述 从 插入 传输 队列 以 及 局 动 DMA 传 输 的 过 程 。 


除了 前 文 提 到 的 用 dmaengine prep dma cyclic O 定义 周期 性 DMA 传 输 外 ， 还 有 一 组 类 似 的 API 可 以 
用 来 定义 各 种 类 型 的 DMA 摘 述 从 ， 特 定 便 件 的 DMA 了 驱动 的 主要 工作 就 是 实现 封装 在 内 核 dma device 结 构 
体 中 的 这 些 成 员 函 数 〈 定 义 在 include/linux/dmaengine.h 头 文件 中 ) : 


* 


Struct- dma. dewvroe = gio Om the entity Supplying DMA ‘services 

Gdevrce prep dma memcpy: prepares a memcpy operatrion 

Gdevrce prep dma xor: prepares a xor operatron 

Gdevrce prep dma: Xor vals prepares a xor validation operation 

Gdevrce prep ema pq: prepares w pq Operatron 

Gdevrce prep dma pog vals prepares e pqdzero Sum Operatrton 

Gdevrce prep dma menset: prepares a memset Operation 

Gdevroe Prep Oma Interrupt: prepares. am end Or Chain. ZBrerrPupt Operavion 

Gdevrce prep slave sg: prepares a slave dma “operation 

Gdevice prep dma cyclic. prepare -ada cyclic dma operation surcable for audio: 
Phe: runcLrton takes a DUL eD On save bur ben. The. cablloack function WLLL 
De called: alter period Lem Dyles eve Deen Trolo erred; 

(device prep Interleaved dia? Vransier express ron .Lm cm Generic wey 


Root ob oto ot ot o FF FF Æ Æ Æ F HF F 


SS 


在 确 层 的 dmaengine 驱 动 实 例 中 ， 一 般 会 组 织 好 这 个 dma_device 结 构 体 ， 并 通过 
dma async device register () 完成 注册 。 在 其 各 个 成 员 图 数 中 ， 一 般 会 通过 链表 来 管理 DMA 摘 述 符 的 运 
行 、free 等 队列 。 


dma_device 的 成 员 函 数 device issue pending OO 用 于 实现 DMA 传 输 开 局 的 功能 ， 每 当 DMA 传 输 完 成 
后 ， 在 张 动 中 注册 的 中 断 服 务 程序 的 项 半 部 或 者 确 半 部 会 调用 DMA 摘 述 符 dma async tx descriptor 中 设置 
的 回调 函数 ， 访 回调 函数 来 源 于 使 用 DMA 通 道 的 设备 张 动 。 


HAY f) dmaengine¥k ay AY W, T drivers/dma/ H 3& F H'Jsirf-dma.c. omap-dma.c. pl330.c. ste dma40.c 等 。 


20.10 K2 


移植 Linux 到 全 新 的 SMP SoC 上 ， 需 在 底层 提供 定时 器 节拍 、 中 断 控 制 器 、SMP 启 动 、GPIO、 时 钟 、 
pinctrl 等 功能 ， 这 些 底 层 的 功能 被 封装 好 后 ， 其 他 设备 张 动 只 能 调用 内 核 提供 的 通用 API。 这 良好 地 体现 
了 内 核 的 分 层 设 计 ， 即 驱动 都 调用 与 硬件 无 关 的 通用 API， 而 这 些 API 的 底层 实现 则 更 多 的 是 填充 内 核 规 
整 好 的 回调 函数 。 


Linux 内 核 社区 针对 pinctrll、 时 钟 、GPIO、DMA 提 供 独 立 的 子 系 统 ， 既 给 具体 的 设备 驱动 提供 了 统一 
的 API， 进 一 步 提 和 高 了 设备 驱动 的 跨 平 台 性 ， 叉 为 每 个 SoC 和 设备 实现 这 些 确 层 API 定 义 好 了 条 条 框框 ， 从 
而 可 以 在 最 大 程度 上 避免 每 个 便 件 实现 过 多 的 元 余 代 但 。 


第 21 章 Linux 设备 驱动 的 调试 


“ 工 欲 善 其 事 ， 必 先 利 其 器 ”， 为 了 方便 进行 Linux 设 备 驱 动 的 开发 和 调试 ， 建 立 良好 的 开发 环境 很 重 
要 ， 还 要 使 用 必要 的 工具 软件 以 及 掌握 常用 的 调试 技巧 等 。 


21.1 HUE f Linux F Wi] vA28GDBHBJZ& A RJ YE 13x 77 © 
21.2 节 讲解 了 Linux 内 核 的 调试 方法 。 


21.3~21.10 节 对 21.3 节 的 概述 展开 了 讲解 ， 内 容 有 : Linux 内 核 调试 用 的 printk O ~ BUG ON ©) 、 
WARN ON () 、/proc、Oops、strace、KGDB， 以 及 使 用 仿真 器 进行 调试 的 方法 。 


21.11 市 讲解 了 Linux 应 用 程序 的 调试 方法 ， 驱 动工 程 师 往往 需要 编写 用 户 空 间 的 应 用 程序 以 对 目 里 编 
写 的 张 动 进行 验证 和 调试 ， 因 此 ， 和 营 握 应 用 程序 调 放 方 法 对 张 动工 程 师 而 言 也 是 必需 的 。 


21.12 节 讲解 了 Linux 常 用 的 一 些 稳定 性 、 性 能 分 析 和 调 优 工具 。 


21.1 GDB 调 试 器 的 用 法 


21.1.1 GDB 的 基本 用 法 


GDB 是 GNU 开 源 组 织 发 布 的 一 个 强大 的 UNIX 下 的 程序 调试 工具 ，GDB 主 要 可 帮助 工程 师 完 成 下 面 4 
个 方面 的 功能 。 


-局 动 程序 ， 可 以 按照 工程 师 目 定义 的 要 求 运 行程 序 。 

让 被 调试 的 程序 在 工程 师 指定 的 断 点 处 保住 ， 断 点 可 以 是 条 件 表 达 式 。 
: 当 程 序 被 停 住 时 ， 可 以 检查 此 时 程序 中 所 及 生 的 事 ， 并 奶 踩 上 文 。 
动态 地 改变 程序 的 执行 环境 。 


不 官 是 调试 Linux 内 核 空间 的 驱动 还 是 调试 用 户 空 间 的 应 用 程序 ， 痢 必须 掌握 GDB 的 用 法 。 而 且 ， 在 
调试 内 核 和 调试 应 用 程序 时 使 用 的 GDB 命 令 是 完全 相同 的 ， 下 面 以 代码 清 时 21.1 的 应 用 程序 为 例 演 示 
GDB 调 试 右 的 用 法 。 


代码 清单 21.1 GDB 调 试 器 用 法 的 演示 程序 


lint add(int a, int b) 
24 
3 return a + b; 


8 int sum[10] - 

- EE 
LO Oy Of Ur Uy DU UO De. Up U 
ll J; 
L2 20t ij 
14 int arrayl[10] = 
loa 4 
LG 46, 6, Id, 337 Op Lly 220, 544, T2; 90 
dg pug 
18 int array2[10] = 


ZU. Bor 93, 60, UxL99, 393, lb Lp Ze Sy 4 


23 tor (n = Ue i < 10: 144) 


25 sum[i] = add(arrayl[i], array2[1]); 


使 用 命令 gcc-g gdb example.c-o gdb example 编 详 上 述 程序 ， 得 到 包 侣 调试 信息 的 二 进 制 文件 
example， 执 行 gdb gdb_example 命 令 进 入 调试 状态 ， 如 下 所 示 : 


5 gdb gdb example 

GNU gdb (Ubuntu J.7-00DUmntu-.L) 437 

Copyright (C) 2014 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later «http://gnu.org/licenses/gpl.html» 


This is free software: you are free to change and redistribute it. 

There is NO WARRANTY, to the extent permitted by law. Type "show copying" 
and "show warranty" for details. 

This GDB was configured as "ió686-linux-gnu". 

Type "show configuration" for configuration details. 

For bug reporting instructions, please see: 
<http://www.gnu.org/software/gdb/bugs/>. 

Find the GDB manual and other documentation resources online at: 
<http://www.gnu.org/software/gdb/documentation/>. 


For help, type "help". 
Type "apropos word" to search for commands related to "word". 
(gdb) 
: eoo sc A 
1 .list 命令 


在 GDB 中 运行 list 命 令 〈 缩 写 1) 可 以 列 出 代码 ，list 的 具体 形式 如 下 。 


.ist<linenum>， 显 示 程 序 第 lnenum 行 周围 的 源 程 序 ， 如 下 所 示 : 


(gdb) list 15 

10 

LL int arrayl[10] = 

12 ( 

13 A95 S304 Ty oo; 329 li; 220,9 9440. T9590 
14 ); 

Bo inr. arrayz [10] = 

16 { 

L7 DO, 99, 66, Uxl99, 393, dh, ly €, 3, 4 
18 E 

19 


‘list<function>, ŒR AAZ Nfunction Hj ee ALA JURE FE, GOR Pom: 


(gdb) list main 

2 { 

3 return a + b; 
4 ) 

3 

6 main() 

7 { 

8 int sum[10]; 
9 Ine x$ 

10 

11 int arrayl[10] - 


list， 显 示 当 前 行 后 面 的 源 程 序 。 


list, SÉ ABT HU HDI SURE, e 


下 面 污 示 了 使 用 GDB 中 的 run CA8 5 Ar) . break (495 Ab) . next (44-5 Nn) 


47, FPA print ES Np) 命令 打印 程序 中 的 变量 sum 的 过 程 : 


(gdb) break add 
Breakpoint 1 at 0x80492r:7: file gdb example.c, line 3. 
(gdb) run 


Starting program; 
Breakpoint 1, add 


/driver study/gdb example 
(a=46, b=85) at gdb example.cis 


warning: Source file is more recent than executable. 
3 return a + b; 

(gdb) next 

* j 

(gdb) next 

main 4) at: gdo example.o:292 

之 过 for (1 = 0; 1 < 10; itt) 

(gdb) next 

25 sum[i] = add(arrayl[i], array2[il); 


命令 控制 程序 的 运 


(gdb) print sum 
ol = (133, 0; Oy. 0, 0 0; U0, 0; O0. 0} 


2.run 命 令 
在 GDB 中 ， 运 行程 序 使 用 run 命 令 。 在 程序 运行 机， 我 们 可 以 设置 如 下 4 方面 的 工作 环境 。 
(1) 程序 运行 参数 


用 set args 可 指定 运行 时 参数 ， 如 set args 10 20 30 4050; 用 show args 命 令 可 以 查看 设置 好 的 运行 参 
BX o 


(2) 运行 环境 


用 path<dir> 可 设 定 程序 的 运行 路 径 ， 用 how paths 可 碍 看 程序 的 运行 路 径 ， 用 set environment 
varname[=value] 可 设置 环境 变量 ， 如 set env USER-baohua; 用 show environment[varname] ll] n] && 34 3i 4E 


n 


(3) 工作 目录 
cd<dir> 相 当 于 shell 的 cd 命令 ，pwd 可 显示 当前 所 在 的 目 孙 。 
(4) 程序 的 输入 输出 


info terminal 用 于 显示 程序 用 到 的 终 病 的 模式 ;在 GDB 中 也 可 以 使 用 重 定 同 控制 程序 输出 ， 如 
run>outfile; 用 tty 命 令 可 以 指定 输入 得 出 的 终 问 放 备 ， 如 ttydewttyS1。 


3.break 命 令 
在 GDB 中 用 break 命 令 来 设置 新 点 ， 设 置 和 新 点 的 方法 如 下 。 
(1) break<function> 


在 进入 指定 函数 时 候 住 ， 在 C++ 中 可 以 使 用 class: : function=%function (type, type) f&xXoKdRaE eA 


(2) break<linenum> 
在 指定 行 号 保住 。 
(3) break+offset/break-offset. 


在 当前 行 和 号 的 前 面 或 后 面 的 offset 行 停 住 ，offset 为 日 然 数 。 


(4) break filename: linenum 
在 源 文 件 filename 的 linenum 行 处 俘 住 。 
(5) break filename: function 
在 源 文 件 flename 的 fonction 函 数 的 入 口 处 停 住 。 
(6) break*address 
在 程序 运行 的 内 存 地 址 处 俘 住 。 
(7) break 
bream a RASA, ZANTE h— dH ABE. 
(8) break...if<condition> 


.可 以 是 上 述 的 break<linenum>、breakrofRebbreak ofRet 中 的 参数 ，condition 表 示 和 条件， 在 条 件 成 立 
时 停 住 。 比 如 在 循环 体 中 ， 可 以 设置 break ifi=100， 表 示 当 i 为 100 时 停 住 程序 。 


查看 断 点 时 ， 可 使 用 info 命 令 ， 如 info breakpoints[n]. info break[n] (nz€zR «Brei m . 
4. 单 步 命令 


在 调试 过 程 中 ，next 命 令 用 于 单 步 执行 ， 类 似 于 VC++ 中 的 step over。next 的 单 步 不 会 进入 函数 的 内 
部 ， 与 next 对 应 的 step (48S As) 命令 则 在 单 步 执 行 一 个 函数 时 ， 进 入 其 内 部 ， 关 似 于 VC++ 中 的 step 
intos PSR 了 step 命 令 的 执行 情况 ， 在 第 23 行 的 add() 函数 调用 处 执行 step 会 进入 其 内 部 的 return 
atb; if): 

(gdb) break 25 

Breakpoint L at 0xo0402021 tile gdb example.c, Dine 25. 

(gab) run 

Starting program: /driver study/gdb example 
Breakpoine 1, Main () ac gdb exampleec:295 
25 sum[i] = add(arrayl[i], array2[il); 
(gdb) step 


add (a=48, b=85) at gdb example.c:3 
3 return a + b; 


于 步 执行 的 更 复杂 用 法 如 下 。 
(1) step<count> 


单 步 跟踪 ， 如 采 有 函数 调用 ， 则 进入 葬 函 数 《〈 进 入 函数 的 前 所 是 ， 些 函数 被 编 详 有 debug 信 息 ) . step 
后 面 不 加 count 表 示 一 条 条 地 执行 ， 加 count 表 示 执 行 后 面 的 count 条 指令 ， 然 后 再 停 住 。 


(2) next<count> 


单 步 跟踪 ， 如 果 有 函数 调用 ， 它 不 会 进入 该 函数 。 同 理 ，next 后 面 不 加 count 表 示 一 条 条 地 执行 ， 加 
count 表 示 执 行 后 面 的 count 条 指令 ， 然 后 再 停 住 。 


(3) set step-mode 


set step-mode on 用 于 打开 step-mode 模 式 ， 这 样 ， 在 进行 单 步 跟 躁 ( 运 NAR S) 时 ， 石 跨越 菜 没 有 
调试 信息 的 函数 ， 程 序 的 执行 则 会 在 该 冰 数 的 第 一 条 指令 处 集 住 ， 而 不 会 跳 过 图 数 。 这 样 我 们 可 以 得 
看 该 函数 的 机 规 指 令 


(4) finish 
ZTE, HARER, IFFT E eR SOR IRIS] A HERR HE. IRIE RES SAE e 
(5) until (445 Nu) 


— ELLE EA AA AUT A TB toe — He Am Seta, Hunti e n] Us TT Fee BBB Hi f P^ 
体 。 


(6) stepi (49 Nsi) 和 nexti (缩写 为 ni ) 


stepi 和 nexti 用 于 单 步 跟 踩 一 条 机 项 指令 。 比 如 ， 一 条 C 程 序 代 码 有 可 能 由 数 条 机 需 指 令 完 成 ，stepi 和 
nextiu] 以 单 步 执 行 机 器 指令 ， 相 反 ，step 和 next 是 C 语 言 级 别 的 命令 。 


态 外 ， 运 行 displayiqgpc 命 令 后 ， 单 步 跟踪 会 在 打出 程序 代码 的 同时 打出 机 纶 指令 ， 即 汇编 代 但 。 


5.continue 命 令 


当 程 序 被 俘 住 后 ， 可 以 使 用 continue 命 令 “〈 缩 写 为 c， 人 命令 同 continue 命 令 ) 恢复 程序 的 运行 直到 程序 
结束 ， 或 到 达 下 一 个 断 点 ， 命 令 格式 为 : 


continue [ignore-count] 
c [ignore-count] 
fg [ignore-count] 


ignore-countz& zs Allg Ja BZD UK T xà o 


BERIA T ERANT add O ， 并 观察 1i， 则 在 continue 过 程 中 ， 每 次 遇 到 add〈) 函数 或 i 肥 生变 
化 ， 程 序 吏 会 俘 住 ， 如 下 所 示 : 


(gdb) continue 
Continuing. 

Hardware watchpoint 3: 1 
Old value = 2 


New value = 3 
0x08049555d. in Main () at. gdb example.c:23 
23 for (1 = 0; 


pL < LO? TTL) 
(gdb) continue 
Continuing: 
BESSKDOXDL l; Main () at gdD example.c:29 
25 sum[i] = add(arrayl[i], array2[1i]); 
(gdb) continue 
Continuing: 


Hardware watchpoint 3: 1 
Old value = 3 
New value = 4 


0x0504530d in main () ac gdb example. 
23 LOP CL = Den < 107 a+) 
6.printti > 


在 调试 程序 时 ， 当 程序 极 俘 住 时 ， 可 以 使 用 print 命 
程序 的 运行 数据 。print 命 令 的 格式 如 下 : 


print <expr> 
print J€rL^ <expr> 


<expr> 是 表达 式 ， 也 是 航 调试 的 程序 中 的 表达 
进 制 的 格式 输出 ， 那 么 束 是 /x。 在 表达 
中 ，@ 是 一 个 和 数组 有 关 的 操作 从 ，: : dB 
器 内 存 地 址 <addr> 的 类 型 为 type 的 对 象 。 


下 面 演示 了 查看 sum[] 数 组 的 值 的 过 程 : 


(gdb) print sum 
D2 = T1353. 155, 0, 0, D. D. Qu. D. 0, 0 
(gdb) next 


Breakpolnt Ly Maun. () ac gdb example.c: 25 

25 sum[i] = add(arrayl[i], array2[1i]); 
(gdb) next 

23 for (1 = 0; i < 10; itt) 


(gdb) print sum 
og e (133, 255, 1493, O; 07 0; D, 0, D. 0} 


大 式 ，< 仓 是 输出 的 格式 ， 比 如 ， 如 果 要 把 表达 
大 式 中 ， 有 几 种 GDB 所 支持 的 操作 符 ， 


令 〈 缩 写 为 p) ， 或 是 同 义 命 令 inspect 来 租 看 当前 


AII FN 
它们 可 以 用 在 任何 一 种 语言 


定 一 个 在 文件 或 是 函数 中 的 变量 ，{<type>}<addr> 表 示 一 个 指 


@ 的 左边 是 第 一 个 内 存 地 址 ，@ 的 


当 需 要 奉 看 一 段 连续 内 存 空间 的 值 时 ， 可 以 使 用 GDB 的 @ 操 作 符 ， 
右边 则 是 想 得 看 内 存 的 长 度 。 例 如 如 下 动态 申请 的 内 存 : 
int. *array = (int ^) malloc (len * sizeot (int));j 


TEGDB Wal UL FE HE Si NIK PON AS BUA VIE: 


p *array@len 


print 的 输出 格式 如 下 。 


X: 按 十 六 进 制 格式 显示 变量 。 


d: fF Til) A DUE AN AEE o 


u: 投 十 六 进 


o: 4 / GEE TI) A SUE AN AE TR 


a: 按 十 六 进 


女 二 进 制 格式 显示 变量 。 


# 制 格式 显示 变量 。 


e: TEETH LASER. 


£i TERA BUR NEZ AER. 


我 们 可 用 display 命 令 设 症 一 些 目 动 旺 示 的 变量 ， 当 程序 停 住 时 ， 或 是 单 步 跟 踪 时 ， 这 些 变量 会 目 动 沁 


ZN o 


如 末 要 修改 变量 ， 如 x 的 人 ， 可 使 用 如 下 命令 


print x-4 


当 用 GDB 的 print 查 看 程序 运行 时 数据 时 ， 每 一 个 print 都 会 被 GDB 记 录 下 来 。GDB 会 以 1，$2，$3.. 
这 样 的 方式 为 每 一 个 print 命 令 编 亏 。 我 们 可 以 使 用 这 个 编 亏 芒 问 以 前 的 表达 式 ， 如 $1。 


7.watch 命 令 


watch 一 般 用 来 观察 某 个 表达 
程序 运行 。 我 们 有 如 下 几 种 方法 来 设置 观察 点 。 


watch<expr>: 为 表达 
rwatch<expr>: 当 表 达 
awatch<expr>: 当 表 达 


info watchpoints: 


下 面 演示 了 观察 并 在 连续 运行 


(gdb) watch 1 


Hardware watchpoint 3: 


(gdb) next 


23 COE 


(gdb) next 


Hardware watchpoint 3: 


Old value 
New value 


O 
L 


ih = 


0; 


Ax 《楼 旺 也 是 一 种 表达 


AX (=) expr 设 置 一 个 观察 点 。 一 


列 出 当前 所 设置 的 所 有 观察 点 。 


i 


i< Los 


1 


i++) 


next 时 一 旦 发 现 


R, MAMRE 


AX PB 


H KRIK 


大 式 〈 和 变量 ) expr 侯 读 时 ， 仿 止 程序 运行 。 


CHI. MRAZE, H EFE 


陈 信 有 变化 时 ， 马 上 停止 程序 运行 。 


AX CZE) 的 值 被 读 或 航 与 时 ， 俘 止 程序 运行 。 


示 出 来 的 过 程 


Ux0504556d in 和 


223 for (2 = Of 1 = 107 i-r) 

(gdb) next 

Breakpoint 1, main () at gdb example.c:25 

25 sum[i] = add(arrayl[i], array2[1i]); 
(gdb) next 

23 tor (2 = 07 a2. < LO? T4) 

(gdb) next 


Hardware watchpoint 3: i 

Old value = 1 

New value = 2 

0x0804838d in main () at gdb example.c:23 
223 for (1 = 0; 1 < 10; itt) 


8 examiner 4 
BATH) VA Fdexaminett > (48S Nx) 来 查看 内 存 地 址 中 的 值 。examine 命 令 的 语法 如 下 所 示 : 


wx ni Sacddr 


<addr> 表 示 一 个 内 存 地 址 。“x/* 后 的 n、 下 u 都 是 可 选 的 参数 ，n 是 一 个 正 整 数 ， 表 示 显 示 内 存 的 长 
度 ， 也 就 是 说 从 当前 地 址 向 后 显示 几 个 地 址 的 内 容 ; 全 示 显 示 的 格式 ， 如 果 地 址 所 指 的 是 字符 串 ， 那 么 
格式 可 以 是 s， 如 果 地 址 是 指令 地 址 ， 那 么 格式 可 以 是 i; u 表 示 从 当前 地 址 往 后 请 求 的 字 节 数 ， 如 果 不 指 
定 的 话 ，GDB 默 认 的 是 4 字 节 。u 参 数 可 以 被 一 些 字符 代 蔡 : be NH, RAM, wee, 
g 表 示 八 字 节 。 当 我 们 指定 了 字 节 长 度 后 ，GDB 会 从 指定 的 内 存 地 址 开始 ， 读 写 指定 字 节 ， 并 把 其 当 作 一 
个 值 取出 来 。n、f、u 这 3 个 参数 可 以 一 起 使 用 ， 例 如 命令 x/3uh 0x54320 表 示 从 内 存 地 址 0x54320 开 始 以 双 
STAI EE (h)〉、16 进 制 方式 Cu) 显示 3 个 单位 〈3) WA. 


9.Set 命 令 
examine 命 令 用 于 查看 内 存 ， 而 set 命 令 用 于 修改 内 存 。 它 的 命令 格式 是 “set* 有 类 型 的 指针 =value”。 
比如 ， 下 列 程序 ， 在 用 gdb 运 行 起 来 后 ， 通 过 Ctrl+C 停 住 。 


main() 


VOLO *p = mallooc(l6); 
while(1); 


我 们 可 以 在 运行 中 用 如 下 命令 来 修改 p 指 网 的 内 存 。 


(gdb) set *(unsigned char *)p-2^'h' 

(gdb) set *(unsigned char *) (ptl)='e' 
(gdb) set *(unsigned char *) (pt2)='1' 
(gdb) set *(unsigned char *)(p*3)-»'l' 
(gdb) set *(unsigned char *) (pt4)='o' 


(gdb) x/s p 
Ox804b008: "hello" 


也 可 以 下 接 使 用 地 址 常数 : 


(gdb) P P 

$2 = (void *) 0x804b008 
) set *(unsigned char *)0x804b008='w' 
) set *(unsigned char *)0x804b009='o' 

gdb) set *(unsigned char *)0x804b00a='r' 
) set *(unsigned char *)0x804b00b-2'Il' 
) * *) d 


gdb) set *(unsigned char 0x804b00c-2'd' 
gdb) x/s 0x804b008 
Ox804b008: "world" 


10.jump ti 


AAR» BEE TRE Ar oe T FG Re AP AS STIFT, MEGDB EH f ALIAT HID RE, 
也 就 是 说 ，GDB 可 以 修改 程序 的 执行 顺序 ， 从 而 让 程序 随意 跳跃 。 这 个 功能 可 以 由 GDB 的 jump 命 令 
jump<linespec> 来 指定 下 一 条 语句 的 运行 点 。<linespec> 可 以 是 文件 的 行 号 ， 可 以 是 file: line 格 式 ， 也 可 以 
是 tnum 这 种 仿 移 量 格式 ， 表 示 下 一 条 运行 语句 从 哪里 开始 。 


jump «address» 


这 里 的 <address> 是 代码 行 的 内 存 地 址 。 


令 不 会 oii en 
转 到 的 函数 运行 完 返回 ， 进 行 出 栈 操作 时 必然 会 发 生 错 误 ， 这 可 能 会 导致 意 想不到 的 结果 ， 因 此 最 好 只 用 
jump 在 同一 个 函数 中 进行 跳 转 。 


VER: jump tit 


11.signal 命 令 


使 用 singal 命 仿 ， 可 以 产生 一 个 信号 量 给 个 调 试 的 程序 ， 如 中 靳 信号 CtrltC。 于 是 ， 可 以 在 程序 运行 
的 任意 位 置 处 设置 断 点 ， 并 在 该 新 点 处 用 GDB 产 生 一 个 信号 星 ， 这 种 精确 地 在 共处 产生 信和 号 的 方法 非 帝 
有 利于 程序 的 调试 。 


signal 命 令 有 的 语法 是 signal<signal>，UNIX 有 的 系统 信号 量 通 第 为 1~15， 因 此 <signal> 的 取 值 也 在 这 个 汇 
内 。 


12.return 命 邻 


如 末 在 函数 中 设置 了 调 弃 断 点 ， 在 断 点 后 还 有 语句 没有 执行 守 ， 这 时 候 我 们 可 以 使 用 retum 命 令 强 制 
图 数 忽略 还 没 有 执行 的 语句 并 返 


Percurn 
return «expression» 


上 上述 return 命 令 用 于 取消 当前 图 数 的 执行 ， 并 立即 返回 ， 如 果 指 定 了 <expression>， 那 么 该 表达 式 的 什 


会 被 作为 图 数 的 返回 值 。 
13.call 命 令 
call 命 令 用 于 强制 调用 霖 函数 : 


call <expr> 


den] vere, DACA A sitll Pel ER RU] A, ERER ERU XL [B MEE COUR RBG [HEC AN 
void) 。 比 如 和 在 下 列 程序 执行 while〈1) 的 时 候 : 


main() 


VOI “eo = nialloc( 1G); 
while(1); 


我 们 强制 要 求 其 执行 strcpy ©) 和 printf OO : 


(gdb) call strcpy(p, "hello world") 
S3 = 134524936 

(gob). call printfi("S$sSXn", p) 

hello world 

Sd = 12 


14.infor 4 


info 命 令 可 以 用 来 在 调试 时 查看 寄存 器 、 断 点 、 观 察 点 和 信号 等 信息 。 要 查看 寄存 器 的 值 ， 可 以 使 用 
如 下 命令 : 


info registers “查看 除了 浮 点 寄存 器 以 外 的 寄存 器 》 
info all-registers (查看 所 有 寄存 器 ， 包 括 浮 点 寄存 器 ) 
info registers «regname ...> (查看 所 指定 的 寄存 器 ) 


ZEW aR, ADEA a Rare: 





info break 要 列 出 当前 所 设置 的 所 有 观察 点 ， 可 使 用 如 下 命令 : 
info watchpoints 


要 查看 有 哪些 信号 正在 被 GDB 检 测 ， 可 使 用 如 下 命令 : 


info signals 
info handle 


也 可 以 使 用 info line 命 令 来 查看 源 代 码 在 内 存 中 的 地 址 。info line 后 面 可 以 跟 行 号 、 函 数 名 、 文 件 名 : dT 
写 、 文 件 名 : 国 数 名 等 多 种 形式 ， 例 如 用 下 面 的 命令 会 打印 出 所 指定 的 源码 在 运行 时 的 内 存 地 址 : 


into line tst.ctfune 


15.disassemble 


disassemble 9 Hl L4. A) ARE KA GS BAT np sa, Sb ER IER BIA 
HJ48- HSE. «RE aN BI FP ER A func H9 2L 2m f: 


(gdb) disassemble func 
Dump of assembler code for function func: 


0x8048450 «func»: push $ebp 

Ox6046451 «fünctl-»: mov sesp, sebp 

0x8048453 «funct3»: sub $0x18,$esp 

0x8048456 <funct6é>: movl SOxO,UXITIIrtffo(lcebp) 


End of assembler dump. 


21.1.2 DDD EAE 7 mf Us v LR; 


GDB 本 身 是 一 种 命令 行 调 试 工具 ， 但 是 通过 DDD (Data Display Debugger, J, 
http://www.gnu.org/software/ddd/)〉 可 以 被 图 形 界 面 化 。DDD 可 以 作为 GDB、DBX、WDB、Ladebug、 
JDB, XDB, Perl Debugger 或 Python Debugger 的 可 视 化 图 形 前 问 ， 其 特有 的 图 形 数 据 显 示 功 能 (Graphical 
Data Display〉 可 以 把 数据 结构 按照 图 形 的 方式 显示 出 来 。 


DDD 最 初 源 于 1990 年 Andreas Zeller 编 号 的 VSL 结 构 化 语言 ， 后 来 经 过 一 些 程序 员 的 努力 ， 演 化 成 分 天 
的 模样 。DDD 的 功能 非常 强大 ， 可 以 调试 用 C/C++、Ada、Fortran、Pascal、Modula-2 和 Modula-3 编 写 的 程 
能 以 超 文 本 方式 浏览 源 代码 ;能够 进行 断 点 设置 、 回 漳 调 试 和 历史 记录 ; 具有 程序 在 终端 运行 的 仿真 
窗口 ， 具 备 在 远程 主机 上 进行 调试 的 能 力 ; 能 够 己 示 各 种 数据 结构 之 间 的 关系， 并 将 数据 结构 以 图 形 形 式 
X; 其 有 GDB/DBX/XDB 的 命令 行 界面 ， 包 括 完 整 的 文本 编辑 、 历 史 纪 录 、 搜 寻 引 擎 等 。 


DDD 的 主 界面 如 图 21.1 所 示 ， 它 和 Visual Studio 等 集成 开发 环境 非常 相近 ， 而 且 DDD 包 售 了 Visual 
Studio 所 不 包含 的 部 分 功能 。 




















int manCint /* = 


int i = 42; 
tree_test(); 


i+: 
list test] 
i+; 


Registers 


eax: Ox401a2db8 1075457464 a 
ecx: 0x8049¢94 134519956 | 














| edx: 0x401a1234 1075450420 
isis test ebx: Ox401a41b4 1075462580 
esp: Oxbfffef 30 -1073746128 
ebp: 0xbfffef48 -1073746104 
esi: Oxbfffe f94 -1073746028 





sri ng. test! 
plo t .testQ; 
type .testQ; 












edi: Ox 1 
eip: Ox8049c 4 134519969 
; " cou ex - Ox286 IOPL: 0 

: e n PF SF IF 
eax: Ox E N 
es: 













0x8049c9a r = 
bx8049ca1 <q Integer registers w All registers 
x ca 








f Fun p 
es i 
Ffffff. (šobo) - 
ing test(void)» 








A 


图 21.1 DDD 的 主 界面 


在 设计 DDD 的 时 候 ， 设 计 人 员 诀 定 把 它 与 GDB 之 间 的 耦合 度 尽 量 降 低 。 因 为 像 GDB 这 样 的 开源 软 
件 ， 更 新 的 速度 比 商 业 软 件 快 ， 所 以 为 了 使 GDB 的 变化 不 会 影响 到 DDD， 在 DDD 中 ，GDB 是 作为 独立 的 
进程 运行 的 ， 通 过 命令 行 接口 与 DDD 进 行 交 互 。 


图 21.2 显 示 了 用 己 、DDD、GDB 和 被 调试 进程 之 则 的 天 系 ，DDD 和 GDB 之 间 的 所 有 通信 都 是 寞 步 进 
行 的 。 在 DDD 中 发 出 的 GDB 命 令 都 会 与 一 个 回调 函数 相连 ， 放 入 命令 队列 中 。 这 个 回调 函数 在 合适 的 时 
间 会 处 理 GDB 的 输出 。 例 如， 如 果 用 万 手动 输入 一 条 GDB 的 命令 ，DDD 了 束 会 把 这 条 命令 与 显示 GDB 输 出 
的 一 个 回调 函数 连 起 来 。 一 旦 GDB 命 令 完 成 ， 就 会 触发 回调 函数 '，GDB 的 输出 束 会 显示 在 DDD 的 命令 窗 
口中 。 


o Ref SF 


2 > inb f 
显示 / = 





X 程序 输出 / 


T. mem i ` 2 Y 
BURN | 被 调试 的 程序 





图 21.2” DDD 运行 机 理 


DDD 在 事件 循环 时 等 每 用 户 输入 和 GDB 输 出 ， 同 时 等 者 GDB 进 入 等 每 输入 状态 。 当 GDB 可 用 时 ， 下 
一 条 命令 就 会 从 命令 队列 中 取出 ， 送 给 GDB。GDB 到 达 的 输出 由 上 次 命令 的 回调 函数 过 程 来 处 理 。 这 种 
步 机 制 避 免 了 了 DDD 在 等 待 GDB 输 出 时 发 生 阻 塞 现象 ， 到 达 的 事件 可 以 在 任何 时 间 得 到 人 处理。 


不 可 人 否认 的 是 ，DDD 和 GDB 的 分 离 使 得 DDD 的 运行 速度 相对 来 说 比较 慑 ， 但 是 这 种 方法 市 来 了 灵活 
性 和 莱 容 性 的 好 处 。 例 如 ， 用 户 可 以 把 GDB 调 试 硕 换 成 其 他 调试 希 ， 如 DBX 等 。 另 外 ，GDB 和 DDD 的 分 
离 使 得 用 户 可 以 在 不 同 的 机 器 上 分 别 运 行 GDB 和 DDD。 


在 DDD 中 ， 可 以 直接 在 底部 的 控制 台中 输入 GDB 命 令 ， 也 可 以 通过 菜单 和 鼠标 以 图 形 方 式 触 发 GDB 
命令 的 运行 ， 使 用 方法 其 为 简单 ， 因 此 这 里 不 再 歼 


DDD 不 仅 可 用 于 调试 PC 上 的 应 用 程序 ， 也 可 调试 目标 板子 ， 方 法 生 用 如 下 命令 司 动 DDD ORN- 
debugger 选 项 指定 一 个 针对 ARM 的 GDB : 


ddd --debugger arm-linux-gnueabihf-gdb < 要 调试 的 程序 > 


除了 DDD 以 外 ， 在 Linux 环 境 下 ， 也 可 以 使 用 广 党 欢迎 的 Eclipse 来 编 与 代码 并 进行 调试 。 安 竣 Eclipse 
IDE for C/C++Developer 后 ， 在 Eclipse 中 ， 可 以 议 置 Using GDB (DSF) Manual Remote Debugging Launcher 
以 及 ARM 的 GDB 等 ， 如 图 21.3 上 所 示 。 








omatically debug forked processes (Note Requires Multi Process GDE) 


l i 12) 1 2 
| ) | " 
| ilb te Using GDB (DSF) Manual Remote Debugging Launcher - Setect other 








Close Debag 


[21.3 ”在 Eclipse 中 设置 Remote 调 试 模 式 和 GDB 


21.2 Linux 内 核 调 试 


在 通 入 却 系 统 中 ， 由 于 目标 机 资源 有 限 ， 因 此 往往 在 主机 上 先 编 详 好 程序 ， 再 在 目标 机 上 运行 。 用 户 
所 有 的 开 友 工作 都 在 主机 开发 环境 下 完成 ， 包 括 编 合 、 编 译 、 连 接 、 下 载 和 调试 等 。 目 标 机 和 主机 通过 串 
口 、 以 六 网 、 仿 真 货 或 其 他 通信 于 段 通 信 ， 主 机 用 这 些 接口 控制 目标 机 ， 调 弃 目 标 机 上 的 程序 。 


Vs XN SX Linux ALEZ B Z3: UE b 


1) Aalst”, Wf] EKGDB4hT, icRESBLERJGDBRH] 5 H ERBLEJKGDBOB x FR EJ BV po] 138 


an EM 


H o 


2) 使 用 仿真 器 ， 仿 真 器 可 直接 连接 目标 机 的 JIAG/BDM， 这 样 主机 的 GDB 就 可 以 通过 与 仿真 器 的 通 
信 来 控制 目标 机 。 


3) FEA PR Ei printk © 、Oops、strace 等 软件 方法 进行 “观察 "调试 ， 这 些 方法 不 具备 查看 和 修 
改 数 据 结构 、 断 点 、 单 步 等 功能 ， 


21.4~21.7 节 将 对 这 些 调试 方法 进行 一 一 讲解 。 


不 管 是 目标 机 “ 插 桩 ”还 是 使 用 仿真 器 连接 目标 机 JTAG/SWD/BDM， 在 主机 上 ， 调 试 工具 一 般 都 采用 
GDB. 


GDB 可 以 直接 把 Linux 内 核 当 成 一 个 整体 来 调试 ， 这 个 过 程 实际 上 可 以 被 REMU 模 拟 出 来 。 进 入 本 书 
配套 Ubuntu 的 /home/baohua/develop/linux/extra 目 录 下 ， 修 改 run-nolcd.sh 的 脚本 ， 将 其 从 


qemu-system-arm -nographic -sd vexpress.img -M vexpress-a9 -m 512M -kernel 
zImage -dtb vexpress-v2p-ca9.dtb -smp 4 -append "init=/linuxrc root-/dev/ 
mmcblkOpl rw rootwait e arlyprintk console-ttyAMAO" 2>/dev/null 


BUA: 


qemu-system-arm -s -S -nographic -sd vexpress.img -M vexpress-a9 -m 512M -kernel 
zImage -dtb vexpress-v2p-ca9.dtb -smp 4 -append "init=/linuxrc root-/dev/ 
mmcblkOpl rw rootwait e arlyprintk console-ttyAMAO" 2>/dev/null 


即 添 加 -s-S 选 项 ， 则 会 使 能 入 式 ARM Linux 系 统 等 待 GDB 远 程 连 入 。 在 终端 1 运行 新 的 .run-nolcd.sh， 
XIF IRA ARM Linux 的 模拟 平台 在 1234 端 口 侦 听 。 开 一 个 新 的 终端 2， 进 入 /home/baohua/develop/linux/， 
执行 如 下 代码 : 


baohua8baohua-VirtualBox:-/develop/linux$ arm-linux-gnueabihf-gdb ./vmlinux 

GNU gdb (orosstool-NG lrznaro-l.l3.L-4.0-2012.05 = Dinero GCC 2013.09) 7T.672013.05 
Copyright (C) 2013 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html> 
This is free software: you are free to change and redistribute it. 

There is NO WARRANTY, to the extent permitted by law. Type "show copying" 


and "show warranty" for details. 

This GDB was conrrigured as "—shost-a169b6-Duülld po-elinüxegnu --rarget-artm-linux-gnueabDihr*5 
For bug reporting instructions, please see: 

«https://bugs.launchpad.net/gcc-linaro»... 

Reading symbols from /home/baohua/develop/linux/vmlinux...done. 

(gdb) 


接 下 来 我 们 远程 连接 127.0.0.1: 1234 


(gdb) target remote 127.0.0.1:1234 
Remote debugging using 127.0.0.1:1234 
0x60000000 in ?? () 


设置 一 个 断 点 到 start kernel ©) 。 


(gab) D Start kernel 
Breakpoint 1 at 0x805fd8ac: file init/main.c, line 490. 


继续 运行 : 


(gdb) c 

Continuing. 

Breakpoint 1, start kernel () at init/main.c:490 
490 { 

(gdb) 


汤 点 候 在 了 内 核 局 动 过 程 中 的 start kernel O 函数 ， 这 个 时 候 我 们 按 下 Ctrl+X，A 键 ， 可 以 看 到 代 
人 码 ， 如 图 21.4 所 示 。 


一 步 ， 可 以 看 看 jiffies 值 之 类 的 


(gdb) p jiffies 

$1 = 775612 

(gab) c 

Continuing. 

as 

Program received signal SIGINT, Interrupt. 
cpu v7 do idle () at arch/arm/mm/proc-v7.8:74 
74 ret lr 

(gdb) p jiffies 

52 = 775687 

(gdb) 


page ext_init_flatmem(); 
mem_init(); 

kmem cache init(); 
percpu init late(); 
pgtable init(); 

vmalloc init(); 


asmlinkage _ visible void q— init start kernel(void) 


char *command line; 
char *after dashes; 


* Need to run as early as possible, to initialize the 
* lockdep hash: 
ae i 


lockdep init(); 

set task stack end magic(&init task); 
smp setup processor id(); 

debug objects early init(); 


: start kernel 





图 21.4 GDB 调试 内 核 


尽 时 采用 " 皇 检 ?和 仿 芮 避 结 合 GDB 的 方式 可 以 得 看 和 修改 数据 结构 、 断 点 、 单 步 等 ， 而 printk O 这 


种 最 原始 的 方法 却 应 用 得 更 广泛 。 


printk ©) 这 种 方法 很 原始 ， 得 是 三 般 可 以 解 次 工程 中 95% 以 上 的 问题 。 因 此 具体 何 时 打印 ， 以 及 打 
印 什么 东西 ， 需 要 工程 师 逐 步 建立 敏锐 的 嗅觉 。 加 深 对 内 核 的 认 知 ， 深 入 理解 自己 正在 调试 的 模块 ， 这 才 
是 快速 解决 问题 的 “王道 "。 工 具 只 是 一 个 辅助 手段 ， 无 法 代 痊 工程 师 的 思维 。 


工程 师 不 能 抱 看 得 过 且 过 的 心态 ， 也 不 能 忌 古 一 知 半 解 地 进行 低 水 平 的 香 复 建设 。 求 知 僻 户 对 工程 师 
拉 术 水 平 的 提升 有 看 最 关键 的 作用 。 


21.3 ”内核 打印 信息 printk () 





在 Linux 中 ， 内 核 打 印 语句 printk O P fei As EH 81 PEZ RAKE, PL EID ATE 
kernel/printk.c 中 通过 如 下 语句 静态 定义 的 : 


static char log buf[ LOG BUF LEN] | aligned(LOG ALIGN); 


内 核 信 息 绥 冲 区 是 一 个 环形 缓冲 区 (Ring Buffer) ， 因 此 ， 如 果 塞 入 的 消息 过 多 ， 则 就 会 将 之 前 的 消 
As ERI] fi o 


print O 定义 了 8 个 消息 级 别 ， 分 为 级 别 0~7， 级 别 越 低 《〈 数 值 越 太 ) ， 消 息 越 不 重要 ， 第 0 级 是 紧急 
事件 级 ， 第 7 级 是 调试 级 ， 代 但 清单 21.2 所 示 为 printk《〈) 的 级 别 定 义 。 


代码 清单 21.2 printk O 的 级 别 定 义 














1 #define KERN EMERG "«0»" /* 紧急 事件 ， 一 般 是 系统 崩溃 之 前 提示 的 消息 */ 

2 #define KERN ALERT "<1>" /* 必须 立即 采取 行动 */ 

3 #define KERN CRIT "<2>" / * 临界 状态 ， 通 常 涉 及 严重 的 硬件 或 软件 操作 失败 * / 
4 $define KERN ERR  "«3»" /* 用 于 报告 错误 状态 ， 设 备 驱动 程序 会 

5 经 常 使 用 KERN ERR 来 报告 来 自 硬件 的 问题 / 
6 #define KERN WARNING "<4>" /* 对 可 能 出 现 问题 的 情况 进行 警告 ， 

这 类 情况 通常 不 会 对 系统 造成 严重 的 问题 */ 

8 #define KERN NOTICE meo [* 有 必要 进行 提示 的 正常 情形 ， 

许多 与 安全 相关 的 状况 用 这 个 级 别 进行 汇报 / 
10#define KERN INFO "post /* 内 核 提示 性 信息 ， 很 多 驱动 程序 

11 在 启动 的 时 候 ， 用 这 个 级 别 打印 出 它们 找到 的 硬件 信息 */ 
124define KERN DEBUG neo /* 用 于 调试 信息 */ 


通过 /proc/sys/Kkernel/printk 文 件 可 以 调节 printk ©) 的 输出 等 级 ， 该 文件 有 4 个 数字 值 ， 如 下 上 所 示 。 
-控制 台 ( 一 般 是 串口 ) HERI: 当 醒 的 打印 级 别 ， 优 先 级 蜗 于 该 值 的 消 恩 将 外 打 纯 人 至 控制 谷 。 


SALE TB e. Hoe Zn]: 将 用 该 优先 级 来 打印 没有 优先 级 前 绥 的 消 轧 ， 也 吏 是 在 百 接 与 printk Cxxx” 
而 不 市 打印 级 别 的 情况 下 ， 会 使 用 该 打印 级 列 。 


-最低 的 控制 台 日 志 级 别 : 控制 台 日 志 级 别 可 个 设置 的 最 小 值 ( 一 般 部 是 1) 。 
默认 的 控制 人 台 日 志 级 询 : 控制 台 日 志 级 列 的 默认 值 。 
如 在 Ubuntu PC 上 ，/proc/sys/kernel/printk 的 值 一 般 如 下 : 


S cat /proc/sys/kernel/printk 
4 4 1 i 


而 我 们 通过 如 下 命令 可 以 使 得 Linux 内 核 的 任何 printk ©) SEM fm edm: 


# echo 8 > /proc/sys/kernel/printk 


在 默认 情况 下 ，DEBUG 级 列 的 消 居 不 会 从 控制 台 输 出 ， 我 们 可 以 通过 在 bootargs 中 设置 ignore loglevel 
来 忽略 打印 级 询 ， 以 傈 证 所 有 消息 都 被 打印 到 控制 侣 。 在 系统 局 动 后 ， 用 户 还 可 以 通过 
© /sys/module/printk/parameters/ignore loglevel X: fF z/] AK Ve Ei 7e £3 AS 1] EH ZI « 


要 注意 的 是 ，/proc/sys/kernel/printk 并 不 控制 内 核 消 息 进 入 _log buf Ji; DG Zo Ve BR alee 
>, abet A log buff, BERRA m TAN RAIN ANI E TES IE. 


HF uf paixtdmesgáüag SE A AFT NZX, BUR ed dmesg, MAZER log buf, 3 
会 清除 该 绥 冲 区 的 内 容 。 也 可 以 使 用 cat/proc/kmsg 命 令 来 显示 内 核 信息 。/proc/kmsg 古 一 个 “ 永 无 休止 的 文 
件 ?”， 因 此 ，cat/proc/kmsg 的 进程 只 能 通过 “Ctrl+C” 或 Kill 终止。 


在 设备 驱动 中 ， 经 常 需要 输出 调试 或 系统 信息 ， 尽 管 可 以 直接 采用 printk (“<7>debug info.. n") 方式 


的 printk( ) 语句 输出 ， 但 是 通常 可 以 使 用 封装 了 printk O 的 更 高 级 的 宏 ， 如 pr_ debug © 、 
dev debug O 等 。 代码 清单 21.3 所 示 为 pr debug ©) 和 pr info O 的 定义 。 








代码 清单 21.3 ”可 将 代 printk《〈) HJZZpr debug ©) 和 和 pr info () 的 定义 


1l#ifdef DEBUG 


2Z#define pr debug(fmt,arg...) \ 

3 printk(KERN DEBUG fmt, ##arg) 

4#else 

OStatic inline int. attribute. . ((formac (printi; 1; 2))) pr debug (conse char > INE. se) 
6 { 

7 return 0; 

e) 

Odendif 
10 
li¢define pr info(fmt,arg...) \ 


(o, printk(KERN INFO fmt, ##arg) 


使 用 pr xxx O 族 API 的 好 处 是 ， 可 以 在 文件 最 开头 通过 pr fmt O 定义 一 个 打印 格式 ， 比 如 在 
kernel/watchdog.c 的 最 开头 通过 如 下 定义 可 以 保证 之 后 watchdog.c 调 用 的 所 有 pr xxx ©) 打印 的 消息 都 目 动 
“i? “NMI watchdog: ”的 前 绥 。 


#define pr fmt(fmt) "NMI watchdog: " fmt 
#include <linux/mm.h> 

#include <linux/cpu.h> 

#include «linux/nmi.h». 


代码 清单 21.4 所 示 为 dev_ dbg ©) . dev em © ~ dev info O 等 的 定义 ， 使 用 dev_xxx () KAPITE 
的 时 候 ， 设 备 名 称 会 被 自动 加 到 打印 消息 的 前 头 。 


代码 清单 21.4 包 售 设备 信息 的 可 蔡 代 printk〈) 的 安 


l#define dev printk(level, dev, format, arg...) \ 
2 printk(level "$s $s: " format , dev driver string(dev) , (dev)->bus id, ## arg) 


4#ifdef DEBUG 

se dev dbg (dev; Tormat, SE.) \ 

6 dev printk (KERN DEBUG , dev , format , ## arg) 
7#else 


ee 


Odendif 
10 
ll#define dev err(dev, format, arg...) X 
12 dev printk(KERN ERR , dev , format , ## arg) 
13#define dev info(dev, format, arg...) N 
14 dev printk(KERN INFO , dev , format , ## arg) 
154$define dev warn(dev, format, arg...) M 
16 dev printk(KERN WARNING , dev , format , ## arg) 
lgderzne dev MOLLE (dev, Tormatr- arg.) X 
18 dev printk(KERN NOTICE , dev , format , ## arg) 


在 打印 信息 时 ， 如 果 想 输出 printk() 调用 所 在 的 函数 名 ， 可 以 使 用 _fonc ; 如 果 想 输出 其 所 在 代 
BAJT, ALOMAR LINE ; 想 输出 源 代 人 码 文 件 名 ， 可 以 使 用 FILE _ 。 例 如 drivers/block/sx8.c 中 的: 


#ifdef CARM NDEBUG 
#define assert (expr) 


#else 

#define assert (expr) \ 
Th (unlikely (lh (expr) yy 4 iN 
printk(KERN ERR “Assertion failed! %s,%s,%s,;line=sd\n", A 
#expr, FILE, | func , _LINE_); \ 


) 
#endif 


21.4 DEBUG LL 和 EARLY PRINTK 


DEBUG LL 对 应 内 核 的 Kernel low-level debugging 功 能 ，EARLY PRINTK 则 对 应 内 核 中 一 个 早期 的 控 
制 侣 。 为 了 在 内 核 的 drivers/tty/serial 下 的 控制 台 驱 动 初 始 化 之 前 文 持 打印 ， 可 以 选择 DEBUG LL 和 
EARLY PRINTK 这 两 个 配置 选项 。 另 外 ， 也 需要 在 bootargs 中 设置 earlyprintk 的 选项 。 


对 于 LDDD3 vexpress 而 言 ， 没 有 DEBUG LL 和 EARLY PRINTK 的 时 候 ， 我 们 看 到 的 内 核 最 早 的 打印 


FH 
KE: 


Booting LINUX on physical CPU 0x0 
Initializing Cqroup subsys cpuset 
Linux version . 


如 果 我 们 使 能 DEBUG LL 和 EARLY PRINTK， 选 择 如 图 21.5 所 示 的 “Use PLO11UARTOat 
0x10009000 (V2P-CA9core tile) ”这 个 低级 别 调试 口 ， 并 在 bootargs 中 设置 earlyprintk， 则 我 们 看 到 了 更 早 
的 打印 信息 : 


Uncompressing Linux... done, booting the kernel. 


Kernel hacking 
Arrow keys navigate the menu. «Enter» selects submenus ---» (or empty submenus ----). 
Highlighted letters are hotkeys. Pressing «Y» includes, «N» excludes, «M» modularizes features. 
Press «Esc»«Esc» to exit, «?» for Help, «/» for Search. Legend: [*] built-in [ ] excluded 
«M» module < > module capable 
C=) 

< > udelay test driver 

[ ] Sample kernel code ---- 

[ ] KGDB: kernel debugger ---- 

[ ] Export kernel pagetable layout to userspace via debugfs 

[ ] Filter access to /dev/mem 

[*] Enable stack unwinding support (EXPERIMENTAL) 

[*] Verbose user fault messages 

[*] Kernel low-level debugging functions (read help!) 

Kernel low-level debugging port (Use PLO11 UARTO at 0x10009000 (V2P-CA9 core 
(0x10009000) Physical base address of debug UART 


Vue Virtual base address of debug UART 
* 


[ ] Write the current PID to the CONTEXTIDR register 
[ ] set loadable kernel module data as NX and text as RO 
(*) 


« Exit » « Help » « Save » « Load » 





图 21.5 ”选择 低级 别 调试 UART 


21.5 使 用 “proc” 


在 Linux 系 统 中 ，“Yproc” 文 件 系 统 十 分 有 用 ， 它 馈 内 核 用 于 同 用 尸 导 出 信息 。“/proc” 文 件 系 统 是 一 个 
虚拟 文件 系统 ， 通 过 它 可 以 在 Linux 内 核 空间 和 用 户 空 间 之 间 进 行 通 信 。 在 /proc 文 件 系 统 中 ， 我 们 可 以 将 
对 虚拟 文件 的 读 写 作为 与 内 核 中 实体 进行 通信 的 一 种 手段 ， 与 普通 文件 不 同 的 是 ， 这 些 虚 拟 文 件 的 内 容 都 
是 动态 创建 的 。 


mE HJ28 X BRE REN, DRAB RAE. fHieU"/proc" FLEE DEERE 
的 ， 节点 可 写 ， 还 可 用 于 一 定 的 控制 或 配置 目的 ， 例 如 表面 介绍 的 写 /proc/sys/kernel/printk 可 以 改变 
printk ©) 的 打印 级 别 。 


Linux 系 统 的 许多 命令 本 刁 都 是 通过 分 析 ”%proc" 下 的 文件 来 完成 的 ， 如 ps、top、uptimne 和 free 等 。 例 
如 ，free 命 令 通 过 分 析 /procmeminfo 文 件 得 到 可 用 内 存 信 息 ， 下 面 显 示 了 对 应 的 meminfo 文 件 和 free 命 令 的 
zu. 


1. meminfo X44 


[root@localhost proc]# cat meminfo 


MemTotal: 29516 kB 
MemFree: 1472 kB 
Buffers: 4096 kB 
Cached: 12648 kB 
SwapCached: 0 kB 
Active: 14208 kB 
Inactive: 8844 kB 
HighTotal: 0 kB 
HighFree: 0 kB 
LowTotal: 29516 kB 
LowFree: 1472 kB 
SwapTotal: 265064 kB 
SwapFree: 265064 kB 
Drrtyi 20 kB 
Writeback: O kB 
Mapped: T0032 KB 
Slab: 3864 KB 
CommitLimit: 219820. KB 
Committed AS: 13760 kB 
PageTables: 444 kB 
vmallocTotal: 999416 kB 
VmallocUsed: 560 KB 
VmallocChunk: 998580 kB 


2. free 命令 


[root@localhost proc]# free 


total used free shared buffers cached 
Mem: 29516 28104 1412 O 4100 L2 100 
-/* buffers/cache: 11304 19212 
Swap: 265064 O 265064 


在 Linux 3.9 UL ZZ WISI APER RbCA B, RIF UU P ESTACGU SE" proc S ei: 


struct proc dir entry "create proc entry (Const char “name, mode. t mode; 
SelLUCe PECe Gir ènr, *parent)'; 

SELUCE proc dir entry "Credle proc read eutryiconst Char “name; mode. t mode, 
struct proc dir entry “base, read proc L "read proc, Void ~= data); 


create proc entry () 函数 用 于 创建 %proc" 节 点 ， 而 create proc read entry © 调用 
create proc entry © 创建 只 读 的 “Vproc” 节 点 。 参 数 name 为 “/proc” 节 点 的 名 称 ，parent/base 为 父 目录 的 节 
点 ， 如 条 为 NULL， 则 指 “/proc" 目 录 ，read_proc 是 “proc "节点 的 读 函 数 指针 。 当 read〈) 系统 调用 
在 “proc" 文 件 系统 中 执行 时 ， 它 映像 到 一 个 数据 产生 函数 ， 而 不 是 一 个 数据 获取 函数 。 


下 列 函 数 用 于 创建 ”proc"” 目 录 : 


SLLUCE proc dir entry “proc MkGir (Const CHAP “Namie, Surucu Proc dir entry parenc); 


结合 create proc entry () 和 proc mkdir O ， 人 代码 清单 21.5 中 的 程序 可 用 于 先 在 /proc 下 创建 一 个 目录 
procfs_example， 而 后 在 该 目录 下 创建 一 个 文件 example file. 


代码 清单 21.5 proc mkdir () 和 create proc entry OO PA žití H yë il 


1/* 创建 /proc 下 的 目录 */ 


2example dur = proc mkdir ("procie example", NULL); 
31f (example dir == NULL) { 
4 rv =  -ENOMEM; 


D COLO OuL; 

6j 

7 

8Sexample dir->owner = THIS MODULE; 
9 
10/* &jg—4^/procxfr */ 


llexample Tile = Create proc entry ("example file", 060606, example diz); 
121f (example file == NULL) | 

13 rv =  -ENOMEM; 

14 goto out; 

Lo} 

IG 

l7example file->owner = THIS MODULE; 

l9example file--^read proc — example file read; 
I9esample SIrbhe- "write Proc = example tile wri e; 


TE 23. EX ES 280 Bids dir entry 结构 体 包含 了 “%proc" 节 点 的 读 函 数 指针 
(read proc t*read proc) 、 写 图 数 指针 (write proc t*write proc) LARVA. Ti MERT., 


[proc FAHY 19 53 RAIRA 43 Al 73: 


Bypeder ant. (read proc ©) (char "page, Char ""SLAEt, it. Oil; 
int count, int *eor, void *data); 
Ltypeder ant (Write proc toL ruel file *"rIile6, Cons. Ciar user *buffer, 


unsigned long count, void *data); 


LKA pagesi ta I8] HT SS A BGI DX, start H Fo IBI SE ER BEES SIAN ERD, eof 
FA FINS WEE. offsetxe BEN 4S, coute HARKE. start Zt EG AS. XI T prek AF 
TR] BARA Tr, TS IS rh RE E ELA HH Yr EL start, KIRA TAREA NB RATE EE VIE A V RO EP] T3 
方 。 


与 图 数 与 fle operations 中 的 write〈) 成 员 函 数 闫 似 ， 需 要 一 次 从 用 户 缓 剖 区 到 内 存 空 间 的 复制 过 程 。 


E Linux% Zgrp up Hi P eS 2509 ER / proc £i: 


VOLO. remove Proc. entry (Const Char “Name; Strutt “proc. Orr enti y "pasem. 


fE Linux AF ZEEE HY n] f HH EY /proc i AREAS: proc root fs (/proc) 、 
proc net (/proc/net) ~ proc bus (/proc/bus) . proc root driver (/proc/driver) =, proc root fsSEbs katz 


NULL. 


代码 清单 21.6 所 示 为 一 个 徐 单 的 %proc" 文 件 系 统 使 用 范例 ， 这 段 代 但 在 模块 加 载 图 数 中 创 
建 /proctest dir 目 录 ， 并 在 该 目录 中 创建 proc/test dir/test rw XCF, TERRE EN X ER CB UR / proc i 
点 ， 而 /proc/test dir/test fw 文件 中 只 保存 了 一 个 32 位 的 整数 。 


代码 清单 21.6_ proc 文 件 系统 使 用 范例 


l#include <linux/module.h> 

2#include <linux/kernel.h> 

3#include <linux/init.h> 

A#include «linux/proc fs.h> 

5 

6static unsigned int variable; 

(Sterile SEPUCC Proc dir embry "best cbr Seo entry, 


8 

Seac IMs west proc. read. (Char “bul, char "ster, or BODIE. 3b cog, 
LO ine eof word *data) 

11{ 

l2 unsigned Lit. ptr var > data; 

19 rotorn oprinne e (bury. Im, ote Wer 

14) 

19 

LoS CACIO ING test Proc while (struc: tile ile, Conse. Char ~burrenr, 
1. unsigned long count, void *data) 

18 { 

L9 URS. Gnec Unt "DUE Vero data; 
20 
2l PPL var = pImple surcoul (butter, NULL, 40) 7 
22 
Z9 He. COUN 
24) 
25 
人 
27{ 


Z0. Ceot OLE = proc. MULE west cur" NUEG) 
29 ub (test air) { 


30 pest enr y = (roate pPoccenory (TEST rw". 00600 test ULE)? 
Sak LL "(COST enbry) 4 

D pest ent mL ex 

33 pest enuryecdatacc-cwvarrable, 

34 test entry resd proc = Lect proc Peso 
Do Gest. SUDIVM WELLS Proce: — Leste. proc. write; 
36 Leturn. 0; 

D } 

38 ] 

39 

40 return -ENOMEM; 

41) 

A2modubie xnit(test proc Im t)? 

43 

4ddstatrc.. exrt vod test proc cleanupivold) 

45 { 


iG. BEMOVe proc entry (ees. FW sy. Ves UII); 

A) penove proc entry (“vese dir". NUL), 

48) 

49module exit (test: proc cleanup); 

50 

OLMODULE AUTHOR Barry ‘Song «baohuaükernel.org-"); 
IZMODULE DESCRIPTION("proc exmaple"); 

99MODUBE- LICENSE ("CGPI VALF 


上 述 代码 第 21 行 调用 的 simple_strtoul O 用 于 将 用 尸 输入 的 字符 串 转 换 为 无 傈 写 长 整数 ， 第 3 个 参数 
ORRE RUI Be PET 


编 详 上 述 简单 的 proc.c 为 proc.ko， 运 行 insmod proc.ko 加 载 该 模块 后 ，“%proc" 目 录 下 将 多 出 一 个 目录 
test dirf， 访 目录 下 包含 一 个 test rw，1s-] 的 结果 如 下 : 


ee 
-rw-rw-rw- 1 root root 0 Aug 16 20:45 /proc/test dir/test rw 


测试 /proc/test dir/test rwBJi 5: 


© cat /proc/test dir/test rw 

0 

9 echo 111.» /proc/test dir/test rw 
9 cat /proc/test dir/test rw 


襄 明 我 们 上 一 步 执行 的 写 操作 是 正确 的 。 


在 Linux 3.10 及 以 后 的 版 本 中 ，'“%proc” 的 内 核 API 和 实现 架构 变更 较 大 ，create proc entry () ~ 
create proc read entry () 之 关 的 API 都 被 删 除了 ， 取 而 代 之 的 是 直接 使 用 proc_ create O 、 
proc create data () API。 同 时 ， 也 不 再 存在 read proc O 、write proc © 之 类 的 针对 proc dir entry 的 成 
员 函 数 了 ， 而 是 直接 把 fle_ operations 结 构 体 的 指针 传 入 proc_create〈) 或 者 proc_create_data《〈) 函数 中 ， 
其 原型 为 : 


和 

Const Nar “tame, mode t mode, SUPUuGt proc dir entry Aparent 
CONSU:-Se luce Tile- -Opera rong “proc. Ops) 7 

SULLUCL. POC. dor embry proc credque-datad 

CONS Char Wasme. Uode: mode; SU ruce Proc- dar envi. “parent, 
CODSvISLEUGSE ILLO Operations “proc Lops, Vol. xata 


我 们 把 代码 清单 21.6 的 范例 改造 为 同时 支持 Linux 3.10 以 前 的 内 核 和 Linux3.10 以 后 的 内 核 。 改 造 结果 
如 代码 清单 21.7 所 示 。#if LINUX VERSION CODE<KERNEL VERSION (3, 10, 0) 中 的 部 分 是 旧版 本 
的 代码 ， 与 21.6 相 同 ， 所 以 省 略 了 。 


代码 清单 21.7 支持 Linux 3.10 以 后 内 核 的 /proc 文 件 系统 使 用 范例 


l#include <linux/module.h> 

2#include <linux/kernel.h> 

3¢#include <linux/init.h> 

4#include <linux/version.h> 

5#include <linux/proc fs.h» 

6#include <linux/seq file.h> 

T 

estatic unsigned int variable; 

Jocar SUCPUGEDEOC Cnr Snery Cect dirty “Test En BV. 
10 
Ll#if LINUX VERSION CODE € KERNEL VERSION (3,. 10; 9) 
UA ER 
13#else 
Bob Int “best proc Show truei. seq tle: sedg. womb "wu 
Eo 

Lo uNsSIghed zb “Dir Var = seqe br vos 

I7 Seq prinbri(tseg, "sun", FPCA var); 


18 return 0; 


191 

20 

ZlLsUudLrO SOLZE G Tene Pro WILLeDSUIUCcL. fie: FELIG Conse Ohar Wesen CDULIST 
22 Size. t Count, LOTE E *ppos) 

234 

24 lt Seq Tile omg Iqle-prrwvare Qarta; 

Z9 UunesgnHueg DC OGL var = Seq-> pri vave; 

26 


24 OLE var = Simple SUtrtcoulvDuL5er, NUBE, 1095 

20 return ‘count; 

29 

30 

SLISUSLIC INC test Proc Opens truci Tnode esi street tite SI219) 
321 

39 Xeturn Single openi(iile,; cest proc show. PDE -DAPA(rInode)); 


34] 

DS 

SOStaGEIC QODSL SUruce tie OG erations best proc 06S = 
2374 

39 .Owner = THIS MODULE, 

S9 spen = best proc Open, 

TU. Pead = Seq Tead; 

Al. write = test proc write, 

42. ll159ek = seg Lseek 

A> release = single release, 

SEI 

Ad5#endif 

46 
人 
48 { 


a). Dest UIT = proc mrour (tes. Oar, NUELI? 

0 at (ESSE ier) X 

Sl#¥if LINUX VERSION CODE < KERNEL VERSION (3, 10; 0) 

92 

53#else 

D4 test enurvy = Proc cbedte daca ("res cw, 0606; Cere Gir, bese proc Tops, variable), 
o> AE best. ODDS) 


56 return. 97 

57#endif 

58 } 

59 

60 return -ENOMEM; 

61] 

o2module rnrirt(cest proc Init}; 

63 

OSSLdLIc.. exit owold test. proc ofeanupivord) 
65{ 


CO: Gemove: Proc Cnty ("best Tw Test GHI 
oy remove proc entry ("best dir', NUBE): 
68 } 

osmodgule. exit test proc Cleanup); 


21.6 Oops 


当 内 核 出 现 英 似 用 户 空 间 的 Segmentation Fault 时 《例如 内 核 访问 一 个 并 不 存在 的 虚拟 地 址 ) =, Oops 


似 打 印 到 控制 合 和 写 入 内 核 log 绥 冲 区 。 


我 们 在 globalmem.c 的 globalmem read O 函数 中 加 上 和 下面 一 行 代 码 : 


} else { 
DOS += Count; 
ret - count; 
*(unsigned int *)0 = 1; /* a kernel panic */ 


printk(KERN INFO "read $u bytes(s) from $luMn", count, 


p); 


假设 这 个 字符 设备 对 应 的 设备 节点 是 /dev/globalmem， 通 过 cat/dev/globalmem 命 令 读 设备 文件 ， 将 得 到 


如 下 Oops 人 信息: 


# cat /dev/globalmem 
Unable to handle kernel NULL pointer dereference at virtual address 00000000 


pgd = 9ec08000 

[00000000] *pgd=7£733831, *pte=00000000, *ppte-00000000 
Internal error: Oops: 817 [#1] SMP ARM 

Modules linked in: globalmem 

CPU: 0 PID: 609 Comm: cat Not tainted 3.16.0+ #13 

task: 9f7408000 ti: 9£722000 task.ti: 9f£722000 


PC is at globalmem read-*O0xbc/Oxcc [globalmem] 
LR is at 0x0 

po [<7 LOO002Z002 | 
Bp. $ 9/2320 XD 2 
FLO SrT414000 r9 
ry = DODODODO r6 
r3 + 00000001 r2 
pddgss necw IROS 


lr s [«0000000025] par: 00000013 

00000000 £p: 00000000 

00000000 r8 00001000 

00001000 r5 00001000 x4 00000000 

: 00000000 r1 00001000 r0 Tr0O0036GC6 

onm FIOS on Mode 5VC 32 deh ARM Segment user 
Control; 10cb3c/d Table: TecUS059. DAC? -00000015 

Process cat (pid: 609, stack limit = 0x9f722240) 


oLtdckr (0x91725L50 tO 029724000) 


SEZs 
3r40? 
3160; 
opoU: 
3fa0: 
arcs 
3Le0% 


[<7£000200>] 


00001000 
9f5e4628 
00001000 
9f722000 
00001000 
DDTSOS SC 


Jed5ebl8 9f723tf80 
9E79ab40' Gr 7 9ab40 
00000000 9f£7168c0 
8000e360 00001000 
7Jed5ebl8 00000003 
7Jed5ebO00 0000f718 


00000000 
00001000 
00001000 
7ed5eb18 
00000003 
00g0Sdec 


Teda Cral 
00000000 
7ed5eb18 
7ed5eb18 
00000003 
7ed5eb18 
60000010 
from 


9£723f80 
o0OGbIL4 
00000000 
00000003 
7ed5eb18 
00000001 
00000003 


[$500651.54] 


00000000 
00000020 
00000000 
00000003 
00001000 
00000003 
00000000 


9f£79ab40 
9£722000 
800cb2ec 
8000e4e4 
0000002£f 
00000000 
00000000 


(globalmem read [globalmem]) (vis read+0x98/0x13c) 
[<800cb114>] (vfs read) from [«800cbZec»] 
[$0500cb2eo^] (sys read) from pS80008200-*] 
Code: ela05008 e2a77000 el1c360f0 e3a03001 
---| end trace 5a36d6470da50d02 ]--- 


Segmentation fault 


(SyS read+0x44/0x84) 
(ret fast syscall1+0x0/0x30) 
(e58c3000) 


上 述 Oops 的 第 一 行 给 出 了 “原因 ”， 即 访问 了 NULL pointer. Oops'F HIPC is at 


globalmem read+0xbc/0xcc 这 一 行 代 人 也 比较 关键 ， 给 出 了 “ 事 友 现场 "， 即 globalmem read O AZU 


0xbc 子 市 的 指令 处 。 


通过 反 汇 编 globalmem.o 可 以 寻找 到 globalmem read O 子 数 开 涉 位 置 偏 移 0xbc 的 指令 ， 反 汇编 方法 如 


Ps 


drivers/char/globalmem$ arm-linux-gnueabihf-objdump -d -S globalmem.o 


对 应 的 反 汇 编 代码 如 下 ，global read O 开始 于 0x144， 仿 移 0xbc 的 位 置 为 0x200: 


Static BSIZ6 LC globaimem read(struocobt Tile "ILLD, char user * Dub. Size U Size; 
lori t * Dpos) 
{ 


144: e92d45f0 push rå; JO. DO; fip te, Si, lij 
148: e24dd00c sub Spy SD, l2 

unsigned long p = *ppos; 
| eg e5934000 ldr pd. [r3] 


“DOS Se Soul; 


LEA: e2a77000 adc r7, r7, #0 
193 elc360f0 strd roy [r3] 
ret - count; 
“(unsigned int ~)0 = le 7* a kernel panic */ 
Lic: e3a03001 mov r3, #1 
2003 e58c3000 Stir fo, [Lip 


printk(KERN INFO "read $u bytes(s) from aluin"; count, p); 
204 E 
return ret; 


"strr3,. [ip 和 是 引起 Oops 的 指令 。 这 里 仅仅 给 出 了 一 个 例子 ， 工 程 实践 中 的 “ 事 妥 现场 ”并 不 全 那么 
DERRI, {ATR ABER MAN « 


LM 


A 


21.7 BUG ON () 和 WARN ON ©) 


内 核 中 有 许多 地 方 调用 类 似 BUG() 的 语句 ， 它 非常 像 一 个 内 核 运行 时 的 断言 ， 意 味 看 本 来 不 该 执 
行 到 BUG O 这 条 语句 ， 一旦 执行 即 抛 出 Oops。BUG O 的 定义 为 : 


#define BUG() do { \ 


printk("BUG: failure at ssi a/o in", . FILE. » LINE p tune JF \ 
pani e("BUGI™)\s X 
} while (0) 


其 中 的 panic〈) 定义 在 kernel/panic.c 中 ， 会 导致 内 核 朋 吝 ， 并 打印 Oops。 比 如 arch/army/kernel/dma.c 中 的 
enable dma () PAZ: 


void enable dma (unsigned int chan) 
{ 
dma t *dma = dma channel (chan) ; 
if (!dma-»lock) 
goto free dma; 
if (dma->active == 0) { 
dma->active = 1; 
dma-»d ops->enable(chan, dma); 
} 
return? 
Lree dma; 


printk(KERN ERR "dma$d: trying to enable free DMA\n", chan); 
BUG () ; 


ERREKA, WR Edma-lockP Kk h. AH S enable dma O ， 实 际 上 意味 
看 和 内核 的 一 个 bug。 


BUG O 还 有 一 个 变 体 叫 BUG ON O ， 它 的 内 部 会 引用 BUG O ， 形 式 为 : 


tdefine BUG ON(condition) do { if (unlikely(condition)) BUG(); } while (0) 


对 于 BUG ON O 而 言 ， 只 有 当 括 号 内 的 条 件 成 立 的 时 候 ， 才 抛 出 Oops。 比 如 drivers/charrandom.c 中 
的 类 似 代码 : 


Static void push to pool(Struct work struct *work) 


{ 
SULUCE. GenLEODy Score Tr = conLaluer CL (work, SUDUCL entropy store; 


push work); 
BUG ONI]? 


_xfer secondary pool(r, random read wakeup bits/8); 
brace push to poolir-oname, r:--entropy count >> ENTROPY SHIFT; 
pecpull-^entropy. count >> ENTROPY SHIFT)? 


除了 BUG ON O 外 ， = nO () ， 在 括号 中 的 条 件 成 立 的 时 候 ， 内 核 会 抛 
出 栈 回 调 ， 但 是 不 会 panic〈) ， 这 通常 用 于 内 核 抛 出 一 个 警告 ， 瞳 示 某 种 不 太 合 理 的 事情 发 生 了 。 如 在 
kernel/locking/mutex-debug.c 中 的 debug mutex unlock () 函数 发 现 mutex unlock O 的 调用 者 和 
mutex lock O 的 调用 者 不 是 同一 个 线程 的 时 候 或 者 mutex 的 owner 为 空 的 时 候 ， 会 抛 出 警告 信息 : 


vord- debug mutex unlock(struce mutex FLOCK) 


{ 
Lr CLlakely (debug. Locks)) :| 


DEBUG LOCKS WARN ON(lock->magic != lock); 
if (!lock->owner) 
DEBUG LOCKS WARN ON(!lock-»owner); 
else 
DEBUG. LOCKS WARN ONCLOGk- owner current 


DEBUG LOCKS: WARN-ON(LIOGK-^wart lst .préev ce XlOOK- "wart. Lrstinexo): 
mutex clear owner(lock); 


有 时 候 ，WARN ON O 也 可 以 作为 一 个 调试 技巧 。 比 如 ， 我 们 进 到 内 核 菜 个 函数 后 ， 不 知道 这 个 函 
数 是 怎么 一 级 一 级 锐 调 用 进来 的 ， 那 可 以 在 该 水 数 中 加 入 一 个 WARN ON (1) 。 


21.8 strace 


在 Linux 系 统 中 ，strace 是 一 种 相当 有 效 的 跟踪 工具 ， 它 的 主要 特点 是 可 以 被 用 来 监视 系统 调用 。 我 们 
不 仅 可 以 用 strace 调 试 一 个 新 开始 的 程序 ， 也 可 以 调试 一 个 已 经 在 运行 的 程序 (这 意味 看 把 strace 绑 定 到 一 
个 已 有 的 PID 上 ) 。 对 于 第 6 章 的 globalmem 字 符 设 备 文件 ， 以 strace 方 式 运 行 如 代码 清单 21.8 所 示 的 用 户 衬 
间 应 用 程序 globalmem test， 运 行 的 结果 如 下 : 


execve("./globalmem test", ["./globalmem test"], [/* 24 vars */]) = 0 
open("/dev/globalmem", O RDWR) = 3 /* 打开 的 /dev/9globalmem 的 fd 是 3 */ 

ioctl(3, FIBMAP, 0) = 0 

read(3, Oxbff17920, 200) = -] ENXIO (No such device or address)/* 读 取 失败 */ 
lstatod(tl,. (90 mMmodes=o LECHRIQOZ0, SUC rdev—mekedey (loo, OD); exer) = U 

mmap2 (NULL, 4096, PROT READ|PROT WRITE, MAP PRIVATE|MAP ANONYMOUS, -1, 0) = Oxb7f04000 
write(1, "-1 bytes read from globalmem\n", 29-1 bytes read from globalmem 

) = 29 /* 向 标准 输出 设备 (fd4l)sSAprintfmmmemgm */ 

write(3, "This is a test of globalmem", 27) = 27 

write(1, "27 bytes written into globalmem\n", 3227 bytes written into globalmem 


) = 32 


得 出 的 每 一 行 对 应 一 次 Linux 系 统 调 用 ， 其 格 却 为 "左边 = 右边 ?”， 等 号 左边 征 系 统 调 用 的 函数 名 及 其 参 
数 ， 右 边 是 该 调用 的 返回 值 。 


S 


代码 清单 21.8 HP 281A) vee? globalmem_test 


l#include ... 

2 

3#define MEM CLEAR 0x1 

4main() 

24 

© XE. td; Hum, pos? 

7T Char wre ch[200] = "This 15 a test of globalmem"; 


e Char rda -ch [20017 
9 /* $jr/dev/globalmem */ 
10 fd = open("/dev/globalmem", O RDWR, S IRUSR | S IWUSR); 


11 if (fd != -1 ) { /* 清除 globalmem */ 

12 LL(1O0CcLtl(rd,.MEM CLEAR, 0) < 0) 

13 printf ("ioctl Command farled\n")> 

14 /* izglobalmem */ 

ibo num. reada; xo ox. 200); 

16 printf ("Sd bytes read from globalmem\n", num); 
17 

18 /* Sglobalmem */ 

19 il 

Z0 printf ("Sd bytes written into globalmem\n", num) ; 
2l TP 

22 close (fd); 

23 J 

24} 


使 用 strace 虽 然 无 法 直接 追踪 到 设备 驱动 中 的 函数 ， 但 是 足以 帮助 工程 师 进 行 推演 ， 如 从 
open (*/dev/globalmem", O_RDWR) =3 的 返回 结果 知道 /dewglobalmem 的 全 为 ?3， 之 后 对 人 包 为 3 的 文件 进行 
read © . write © 和 ioctt〈) 系统 调用 ， 最 终 会 使 globalmem 里 file operations 中 的 相应 函数 被 调用 ， 通 过 
系统 调用 的 结果 就 可 以 知道 驱动 中 globalmem read © 、globalmem write Ù) 和 globalmem ioctl © 的 运 


a 


行 结 


21.9 KGDB 


Linux Hj £t fX IKGDBHJSCHP, KGDBOKH] S HU BI BRAS IR E IG, 一般 依 赖 于 串口 与 出 
试 主机 通信 。 为 了 支持 KGDB， 串 口 驱动 应 该 实现 纯粹 的 轮 询 收发 单一 字符 的 成 员 函 数 ， 以 供 
drivers/ttyserialkgdboc.c 调 用 ， 璧 如 drivers/ttywserial/8250/82$0 core.c HY: 


cotati SUPUCE Ta Ops. ea pops. = 4 


#ifdef CONFIG CONSOLE POLL 
poll get char = serrials250 get poll. char; 
POLL put Cher = seridgle7o0 put POLL char, 
#endif 
}; 


在 编 详 内 核 时 ， 运 行 make ARCH=arm menuconfig 时 和 需 选 择 关 于 KGDB 的 编译 项 目 ， 如 图 21.6 所 示 。 


KGDB: kernel debugger 
Arrow keys navigate the menu. «Enter» selects submenus ---> (or 
empty submenus ----). Highlighted letters are hotkeys. Pressing «Y» 
includes, <N> excludes, «M» modularizes features. Press «Esc»«Esc» 
to exit, «?» for Help, </> for Search. Legend: [*] built-in [ ] 


B-E KGDB: kernel debugger 


<*>  KGDB: use kgdb over the serial console (NEW) 
[] GDB: internal test suite (NEW) 
[] “GDB KDB: include kdb frontend for kgdb (NEW) 


« Exit » « Help » « Save » « Load » 





21.6 KGDB 编 译 选 项 配置 


对 于 目标 板 而 言 ， 需 要 在 bootargs 中 设置 与 KGDB 对 应 的 串口 等 信息 ， 如 kgdboc=ttyS0， 


115200kgdbcon. 


TRAGE S BB A AS FF GDBIE BE V iA, P EAT Ebootargs"H ix &kgdbwait, kgdbwaitH) 
a XE SJ RFF ENLIGDBER. MARE NIA Ja eEAGDB NR, nisírecho 


g>/proc/sysrq_trigger 命 令 给 内 核 传 入 一 个 键 值 是 g 的 magic sysrq。 


在 调试 PC 上 ， 依 次 运行 如 下 命令 束 可 以 局 动 调试 并 连接 至 目标 机 【假设 串口 在 PC 上 对 应 的 设备 节 所 


是 /dev/ttyS0) : 


# arm-eabi-gdb ./vmlinux 
(gdb) set remotebaud 115200 
(gdb) target remote /dev/ttyS0 / /连接 目标 机 


之 后 ， 在 主机 上 ， 我 们 可 以 使 用 GDB 像 调试 应 用 程序 一 样 调试 使 能 了 KGDB 的 目标 机 上 的 内 核 。 


21.10 f FH C Vi] V] ER 


在 ARM Linux 领 域 ， 目 前 比较 主流 的 是 采用 ARM DS-5Development Studio7; 22. ARM DS-5 是 一 个 针 
HAE F Linux h RAMARI RA RRA EMRA RERIT R, Cm S FRKA MEJI 
I AMBIT EASIDV ABER vai. DT. SUÉZ1.7HTzS. EH f DSTREAM ETERN Aar ARMOA F 
iE EXRVI-RVT2 Aas) ， 在 Eclipse 内 包含 了 DS-5 和 DSTREAM 的 开发 插件 。 


调试 主机 一 般 通 过 网 线 与 DSTREAM 仿 真 器 连接 ， 而 仿真 器 则 连接 与 电路 板 类 似 的 JTAG 接 口 ， 之 后 
用 DS-5 调 试问 进行 调试 。DS-5 图 形 化 调试 右 提 供 了 全 面 和 直观 的 调试 图 ， 非 第 易于 调试 Linux 和 裸 机 程 
Fe, JT EARB, DET RW, BAA. areas. KAN Be, DARRIE, WT E. 


dimwTparks 
0xS0000822 


)x800OOP eC 





ost abo imet Inset meme Z 


图 21.7 DSTREAM 仿 真 器 和 DS-5 开 发 环境 





值得 一 提 的 是 ，DS-5 也 提供 了 Streamline Performance Analyzer. ARM Streamline 性 能 分 析 器 ( 见 图 
21.8) 为 软件 开发 人 员 提 供 了 一 种 用 来 分 析 和 优化 在 ARM926、ARMI11 和 Cortex-A 系 列 平 台 上 运行 的 Linux 
和 Android 系 统 的 卫 观 方法 。 使 用 Streamline，Linux 内 核 中 需 包 含 一 个 gator 模 块 ， 用 户 容 间 则 需要 使 能 
gatord 后 台 服 务 器 程序 。 关 于 Streamline 具 体 的 操作 方法 可 以 查看 《ARM DS-5Using ARM Streamline) . 
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图 21.8 ” ARMStreamline 性 能 分 析 器 


21.11 应 用 程序 调试 


在 通 入 云 系 统 中 ， 为 调试 Linux 应 用 程序 ， 可 在 目标 板 上 和 驳 运 行 GDBServer， 有 再 让 主机 上 的 GDB 与 目 
人 标 板 上 的 GDBServer 通 过 网 口 或 串口 通信 。 


1 .目标 板 
南 要 运行 如 下 命令 局 动 GDBServer: 
人 
«host ip»: <port> 为 主机 的 卫 地 址 和 交口 ，app 征 可 执行 的 应 用 程序 名 。 
当然 ， 也 可 以 用 系统 中 空闲 的 串口 作为 GDB 调 试 器 和 GDBServer 的 底层 通信 手段 ， 如 : 


gdbserver/dev/ttyS0./tdemo 


南 要 先 运行 如 下 命令 月 动 GDB: 
arm-eabi-gdb «app» 
app 与 GDBServer 的 app 参 数 对 应 。 
之 后 ， 运 行 如 下 命令 束 可 以 连接 目标 板 : 
要 
«target ip»: <porf> 为 目标 机 的 卫 地 址 和 交口 。 
如 果 目 标 板 上 的 GDBServer 使 用 串口 ， 则 在 箱 主 机 上 GDB 也 应 该 使 用 串口 ， 如 : 


(gdb) target remote/dev/ttyS1 
之 后 ， 便 可 以 使 用 GDB 像 调试 本 机 上 的 程序 一 样 调 斌 目标 机 上 的 程序 。 
3. 通 过 GDB server 和 ARM GDB 调 试 应 用 程序 


在 ARM 开 及 板 上 放置 GDB server， 便 可 以 通过 目标 板 与 调试 PC 之 间 的 以 太 网 等 调试 。 要 调试 的 应 用 
程序 的 源 代码 如 下 : 


/* 
* gdb example.c: program to show how to use arm-linux-gdb 
ari 
vord NNOIOSSE One ime Vd 
{ *data = *data + 1; 
j 
int main(int argc, char *argv[]l) 
( int dat = 0; 
Ln wo = D; 
increase one(&dat); 
/* program will crash here */ 
increase One (p); 
return 0; 


iI debug/7 3X2 FE : 


arm-limux-gnueabi-gqoc eg =0 gdb example gdb. examplesc 


将 程序 下 载 到 目标 板 后 ， 在 目标 板 上 运行 : 


# gdbserver 192.168.1.20:1234 gdb example 
Process. gdb example created; pid = L026 
Listening on port 1234 


其 中 192.168.1.20 为 目标 板 的 3IP，1234 为 GDBserver 的 侦 上 听 端 口 。 


如 朵 目标 机 是 Android 系 统 ， 且 没有 以 太 网 ， 可 以 竹 试 使 用 adb forward 功 能 ， 比 如 adb forward tcp: 


1234tcp: 1234 是 把 目标 机 1234 端 口 与 主机 1234 端 口 进行 转发 。 
在 主机 上 运行 : 
$ arm-eabi-gdb gdb example. 
主机 的 GDB 中 运行 如 下 命令 以 连接 目标 板 : 


(gdb) target remote 192.168.1.20:1234 
Remote debugging using 192.168.1.20:1234 


Ox400007b0 in ??  () 


Qu Xe AndroidHJadb forward， 则 上 述 target remote 192.168.1.20: 


成 下 接连 接 本 机 了， 可 和 直接 与 成 target remote: 1234. 
运行 如 下 命令 将 断 点 设置 在 increase one (&dat) ; 这 一 行 : 


(gdb) b gdb example.c:160 
Breakpoint J qt 0302790; file gdb exanplec, line 169; 


通过 c 命 令 继续 运行 目标 板 上 的 程序 ， 有 及 生 新 点 : 


(gdb) Cc 
Continuing. 


1234 中 的 卫 地 址 可 以 去 择 ， 因 为 它 变 


Breakpoint lI, marn (argc-1l1, argv-0Oxbead4ebp4) at gdb example.c: 16 
loincrease one(&dat); 


运行 n 命 令 执 行 完 increase one (&dat) ; 再 但 看 dat 的 值 : 


(gdb) n 
L9rnorease one(p); (gdb). p dat 
91-21 


及 现 dat 变 成 1。 继 续 运 行 c 命 令 ， 由 于 即将 访问 空 指针 ，gdb_example 将 朋 温 : 


(gdb) c 
CONDI 
Program received signal SIGSEGV, Segmentation fault. 
0x0000834c 1n ancrease one (data-U0x0) at gdb examplesc:o 
8*data = *data + 1; 


我 们 通过 bt 命令 可 以 全 到 backtrace: 


(gdb) bt 
$0 0x0000834c in increase one (data-0x0) at gdb example.c:8 
#1  0x000083a4 in main (argc-1, argv-Oxbead4eb4) at gdb example.c:19 


通过 info reg 命 令 可 以 查看 当时 有 的 寄存 峰值 : 


(gdb) info reg 

E0050: +0 
rl0xbead4eb43199028916 
Ol AL 

YSO 4) 
r40x4001e5e01073866208 
E505:50- D 

E00x020033599 

EJOO 4) 

r80x0 Q 

r90x0 0 

r10 0x400250001073893370 
rll 0xbead4d443199028548 
r12 0xbead4d483199028552 
sp Oxbead4d300xbead4d30 
lr 0x83a433700 

pe 0x834c0x834c «increase onet24> 
Eps xU -O 

epsr OxG00000l01 610012752 


21.12 Linux 性 能 监控 与 调 优 工具 


除了 你 证 程序 的 正确 性 以 外 ， 在 项 目 开 友 中 往往 还 关心 性 能 和 稳定 性 。 这 时 候 ， 我 们 往往 要 对 内 核 、 
应 用 程序 或 整个 系统 进行 性 能 优化 。 在 性 能 优化 中 第 用 的 手段 如 下 。 


1 .使 用 top、vmstat、iostat、sysctl 等 党 用 工具 


top 命 令 用 于 显示 处 理 需 的 活动 状况 。 在 缺 省 情况 下 ， 显 示 占 用 CPU 最 多 的 任务 ， 并 且 每 隔 $s 做 一 次 
刷新 ，vmstat 命 令 用 于 报告 关于 内 核 线 程 、 虚 拟 内 存 、 磁 盘 、 陷 阱 和 CPU 活动 的 统计 信息 ; iostat 命 令 用 于 
分 析 各 个 磁盘 的 传输 闲 忙 状况 ，netstat 是 用 来 检测 网 络 信 息 的 工具 ;sar 用 于 收集 、 报 告 或 者 保存 系统 活动 
信息 ， 其 中 ，sar 用 于 显示 数据 ，sarl 和 sar2 用 于 收集 和 保存 数据 。 


sysctl 是 一 个 可 用 于 改变 正在 运行 中 的 Linux 系 统 的 接口 。 用 sysctl 可 以 读 取 几 百 个 以 上 的 系统 变量 ， 例 
如 用 sysctl-a 可 谈 取 所 有 爸 量 。 


sysctl 的 实现 原理 是 : 所 有 的 内 核 参 数 在 proc/sys 中 形成 一 个 树 状 结构 ，sysctl 系 统 调用 的 内 核 函 数 征 
sys sysctl, JLACIIA JS, mR Edo sysctl strategy 中 完成 ， 如 


echo "1" > /proc/sys/net/ipv4/ip forward 


SYSCLL =w net. r:pv4.1p Torward ="1" 


2. Für ZA FE, WIOProfile. gprof 


OProfilen] LATE Bj Hd P? VAR v URRY AES IRI. ARIE. te Re EEN EHE AIC. TOC ATHE 
换 和 元 有余 操作 、 错 误 预 测 转移 等 问题 。 它 收集 有 关 处 理 右 事件 的 信息 ， 其 中 包括 TLB 的 故障 、 侣 机 、 存 储 
a Vy E DA Be Be Fe M PAR FF Se 


OProfile 支 持 两 种 采样 方式 ， 基于 事件 的 采样 (Event Based) 和 基于 时 间 的 采样 (Time Based) 。 基 于 
事件 的 采样 是 OProfile 只 记录 特定 事件 《比如 L2 绥 存 未 命中 ) 的 发 生 次 数 ， 当 达到 用 户 设 定 的 定 值 时 
Oprofile 就 记录 一 下 〔〈 采 一 个 样 ) 。 这 种 方式 需要 CPU 内 部 有 性 能 计数 器 (Performace Counter) 。 基 于 时 
间 的 采样 是 OProfile 借 助 OS 时 钟 中 断 的 机 制 ， 在 每 个 时 钟 中 断 ，OProfile 都 会 记录 一 次 〈 采 一 次 样 ) 。 引 
入 它 的 目的 在 于 ， 提 供 对 没有 性 能 计数 右 的 CPU 的 文 持 ， 其 精度 相对 于 基于 事件 的 采样 要 低 ， 因 为 要 信 助 
OS 时 钟 中 断 的 文 持 ， 对 于 蔡 用 中 断 的 代码 ，OProfile 不 能 对 其 进行 分 析 。 


OProfile 在 Linux 上 分 两 部 分 ， 一 个 是 内 核 模 块 (oprofile.ko) ， 男 一 个 是 用 户 空 间 的 守护 进程 


Coprofiled) 。 前 着 负责 访问 性 能 计数 硕 或 者 注 册 基 于 时 间 采 梓 的 函数 ， 并 将 采样 值 首 于 内 核 的 缓冲 区 
内 。 后 者 在 后 侣 运行 ， 负 贡 从 内 核 空 间 收集 数据 ， 写 入 文件 。 其 运行 步 又 如 下 。 


1) 初始 化 opcontrol--init 

2) 配置 opcontrol--setup--event=.… 
3) 局 动 opcontrol--start 

4) 运行 竺 分 析 的 程序 xxx 

5) 取出 数据 

opcontrol--dump 

opcontrol--stop 

6) 分 析 结 末 opreport-]./XXX 


用 GNU gprof 可 以 打印 出 程序 运行 中 各 个 函数 消耗 的 时 间 ， 以 帮助 程序 员 找 出 众多 函数 中 耗 时 最 多 的 
因数 ;还 可 产生 程序 运行 时 的 函数 调用 关系 ， 包 括 调 用 次 数 ， 以 玫 助 程序 员 分 析 程 序 的 运行 流程 。 


GNU gpro 的 实现 原理 :在 编 详 和 链接 程序 的 时 候 〈 使 用 -pg 编 详 和 链接 选项 ) ，gcc 在 应 用 程序 的 每 

因数 中 都 加 入 名 为 mcount € mcount 或 “mcount， 依 赖 于 纺 详 做 或 操作 系统 ) 的 函数 ， 也 束 是 说 应 用 程 
序 里 的 每 一 个 数 都 会 调用 mcount， 而 mcount 会 在 内 存 中 剑 仓 一 张 函 数 调用 图 ， 并 通过 函数 调用 扒 栈 的 形 
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GNU gprof 的 基本 用 法 如 下 。 

1) 使 用 -pg 编译 和 链接 应 用 程序 。 

2) 执行 应 用 程序 并 使 它 生成 供 gprof 分 析 的 数据 。 

3) 使 用 gprof 程 序 分 析 应 用 程序 生成 的 数据 。 
进行 内 核 跟踪 ， 如 LTTng 


LTTng (Linux Trace Toolkit-next generation， 官 方 网 站 为 http://lttng.org/〉 是 一 个 用 于 跟踪 系统 详细 运行 
状态 和 流程 的 工 其 ， 它 可 以 跟 躁 记录 系统 中 的 特定 事件 。 这 些 事件 包括 : 系统 调用 的 进入 和 退出 ; 陷阱/ 
lt (Trap/Irq) 的 进入 和 退出 ;进程 调度 事件 ， 内 核定 时 并 ;进程 管理 相关 事件 一 一 创建 、 唤 醒 、 信 和 号 


处 理 等 ， 文 件 系 统 相 关 事 件 open/read/write/seelvioctl 等 ;内 存 管理 相关 事件 一 一 内 存 分 配 /释放 等 ;其 
他 IPC/ 套 接 字 /网 络 等 事件 。 而 对 于 这 些 记 录 ， 我 们 可 以 通过 图 形 的 方式 经 由 lttv-gui 碍 看 ， 如 图 21.9 所 示 。 





4. 使 用 LTP 进 行 压 力 测试 


LTP (Linux Test Project， 官 方 网 站 为 http://ltp.sourceforge.net/)》 是 一 个 由 SGI 发 起 并 由 IBM 负 责 维 护 的 
合作 计划 。 它 的 目的 是 为 开源 社区 提供 测试 套件 来 验证 Linux 的 可 靠 性 、 健 壮 性 和 稳定 性 。 它 通过 压力 测 
试 来 判断 系统 的 稳定 性 和 可 菲 性 ， 在 工程 中 我 们 可 使 用 LTP 测 试 侠 件 对 Linux 操 作 系 统 进行 超 长 时 间 的 测 
试 ， 它 可 进行 文件 系统 压力 测试 、 便 盘 VO 测 试 、 内 和 存 定 理 压 力 测 试 、IPC 压 力 测试 、SCHED 测 试 、 命 令 
功能 的 验证 测试 、 系 统 调用 功能 的 验证 测试 等 。 


Linux Trace Toolkit Viewe 


File View Tools Plu 


me Ee eeo QAQ arx ODP zems>d I 


Brand PID TGID PPID CPU Bi rth ° 
648 643 562 0 0 
649 643 562 0 0 


SurfaceFlinger 651 643 562 
DisplayEventThr 652 643 562 
653 653 1 
654 653 1 
655 653 1 
KER RA 
Tracefile CPUID Event ime(s) Time(ns) PID Event Description 
/home/barry/training/debug/Ittng-traced-data/trace-inand kernel 0 syscall_entry 260025634 655 kernel.syscall_entry: 0.260025634 (/ho 
[/home/barry/training/debug/Ittng-traced-data/trace-inand kernel sched_schedule 260026855 650 kernel.sched_schedule: 0.260026855 (/ 
raining/debug/lttng-traced-data/trace-inand kerne syscall_exi 260028076 650 kernelsyscall exit: 0.260028076 (/ho 
raining/debug/lttng-traced-data/trace-inand kerne syscall entr 260029296 650 kernelsyscall entry: 0.260029296 (/ho 
aining/debug/Ittng-traced-data/trace-inand kerne syscall exi 260030517 650 kernel.syscall exit: 0.260030517 (/ho 
raining/debug/Ittng-traced-data/trace-inand kerne syscall entr 260031738 650 mace i 0.260031738 (/ho 
raining/debug/lttng-traced-data/trace-inand kerne syscall exi 260032958 650 —— xit: 0.260032958 (/hon 
raining/debug/Ittng-traced-data/trace-inand kerne syscall_entr 260034179 650 kernels entry: 0.260034179 (/ho 





图 21.9 ERA 


5 A HBenchmarkTf fà 25 Zi 


可 用 于 Linux 的 Benchmark 的 包括 Imbench、UnixBench、AIM9、Netperf、SSLperf、dbench、Bonnie、 
Bonnie++、Iozone、BYTEmark 等 ， 它 们 可 用 于 评估 操作 系统 、 网 络 、LIO 子 系统 、CPU 等 的 性 能 ， 参 考 网 
Ehttp://lbs.sourceforge.net/ 列 出 了 许多 Benchmark 工 上 其。 


21.13 Mme 


Linux 程 序 的 调试 ， 尤 其 是 内 核 的 调试 看 起 来 比较 复 林 ,没有 类 似 于 VC++、Tornado 的 IDE 开 友 坏 境 ， 
最 征用 的 调试 手段 依然 古文 本 方式 有 的 GDB。 文 本 方式 的 GDB 调 试问 功能 弄 第 强大 ， 当 我 们 使 用 习惯 后 ， 
Blas HSE is AK o 


Linux A AZ Jb JJ ER] V AU VAS edi SE. BE oa All fie printk ©) ~ Oops. strace, TEAS BUA 
下 ， 原 始 的 prink《〈) DAERA NIFE. 


除了 本 革 介 绍 的 方法 外 ， 在 驱动 的 调试 中 很 可 能 还 会 信 助 其 他 的 人 硬件 或 软件 调试 工具 ， 如 调试 USB 驱 
动 最 好 借助 USB 分 析 仪 ， 用 USB 分 析 仪 将 可 捕获 USB 通 信 中 的 数据 包 ， 如 同 网 络 中 的 Sniffer 软 件 一 样 。 


